d2l 里面GRU与Lstm实现

原创已于 2023-04-18 22:19:08 修改 · 636 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#gru #lstm #自然语言处理

于 2023-04-14 10:33:53 首次发布

文件处理专栏收录该内容

25 篇文章

订阅专栏

文章详细介绍了GRU和LSTM两种循环神经网络结构的理论、参数初始化、网络定义、训练过程。GRU通过更新门和重置门改进了H的计算，而LSTM引入了输入门、遗忘门和输出门来管理长期依赖。两者都在RNN的基础上优化了对序列数据的处理能力。

此二者的本质都是对rnn进行改良：关注当前多还是关注之前多。

在此详细讲一下。

1.GRU门循环控制单元

1.1理论：

其参数多了两个，本质都是对H的计算进行了改进。

1.2初始化参数

与从零开始RNN的初始化参数类似，首先指定输入输出维度=len(vocab)
构建一个均值=0，std=0.01的初始化tensor，传入的是尺寸
将更新门、重置门、候选隐状态的参数都是3个，构造初始化辅助函数three，直接赋值即可得到相应的初始化参数(初始化需要的参数形式相同，故一样)
传入的X尺寸为(bs,V),系数W的尺寸为(V,h)/(h,V),H的尺寸为(bs,h);与X或H相乘得到(bs,V),这其实就是Y的尺寸，再相应dim=0上叠加，得到最终一个T的outputs为(bs*T,V)

def get_params(vocab_size, num_hiddens, device):
    num_inputs = num_outputs = vocab_size
    
    def normal(shape):
        return torch.randn(size=shape, device=device)*0.01
    
    def three():
        return (normal((num_inputs, num_hiddens)),
                normal((num_hiddens, num_hiddens)),
                torch.zeros(num_hiddens, device=device))
    
    W_xz, W_hz, b_z = three() # 更新⻔参数
    W_xr, W_hr, b_r = three() # 重置⻔参数
    W_xh, W_hh, b_h = three() # 候选隐状态参数
    # 输出层参数
    W_hq = normal((num_hiddens, num_outputs))
    b_q = torch.zeros(num_outputs, device=device)
    # 附加梯度
    params = [W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q]
    for param in params:
        param.requires_grad_(True)
    return params

1.3定义网络

初始化参数：

def init_gru_state(batch_size, num_hiddens, device):
    return (torch.zeros((batch_size, num_hiddens), device=device), )

定义gru计算：

注意： @这个符号是矩阵乘法，*是哈达玛积
H的尺寸仍是(bs,h),注意W_hz;W_hr等的尺寸为(h,h)

计算公式与开始的理论图里面的公式一致。

def gru(inputs, state, params):
    W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q = params
    H, = state
    outputs = []
    for X in inputs:
        Z = torch.sigmoid((X @ W_xz) + (H @ W_hz) + b_z)
        R = torch.sigmoid((X @ W_xr) + (H @ W_hr) + b_r)
        H_tilda = torch.tanh((X @ W_xh) + ((R * H) @ W_hh) + b_h)
        H = Z * H + (1 - Z) * H_tilda
        Y = H @ W_hq + b_q
        outputs.append(Y)
    return torch.cat(outputs, dim=0), (H,)

与rnn不同的是：只要传入初始化参数，初始化state，以及forward如何计(定义的gru)丢尽RNNModel即可运算。