动手学习深度学习—Task04

最新推荐文章于 2022-09-01 18:21:05 发布

美式半糖不加奶

最新推荐文章于 2022-09-01 18:21:05 发布

阅读量133

点赞数

分类专栏：动手学习深度学习文章标签：深度学习 pytorch

本文链接：https://blog.csdn.net/kissedbywater/article/details/104400894

版权

动手学习深度学习专栏收录该内容

4 篇文章 1 订阅

订阅专栏

文章目录

GRU
LSTM
深度循环神经网络
双向循环神经网络

GRU

RNN存在的问题：梯度较容易出现衰减或爆炸（BPTT）
⻔控循环神经⽹络：捕捉时间序列中时间步距离较⼤的依赖关系
在这里插入图片描述
GRU:

$R_t = \sigma(X_tW_{xr}+H_{t-1}W_{hr}+b_r)\\ Z_t = \sigma(X_tW_{zr}+H_{t-1}W_{hz}+b_z)\\ \hat{H}_t = tanh(X_tW_{xh}+(R_t{\bigodot}H_{t-1})W_{hh}+b_h)\\ H_t = Z_t{\bigodot}H_{t-1}+(1-Z_t){\bigodot}\hat{H}_t$

重置⻔有助于捕捉时间序列⾥短期的依赖关系；
更新⻔有助于捕捉时间序列⾥⻓期的依赖关系。

def gru(inputs, state, params):
    W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q = params
    H, = state
    outputs = []
    for X in inputs:
        Z = torch.sigmoid(torch.matmul(X, W_xz) + torch.matmul(H, W_hz) + b_z)
        R = torch.sigmoid(torch.matmul(X, W_xr) + torch.matmul(H, W_hr) + b_r)
        H_tilda = torch.tanh(torch.matmul(X, W_xh) + R * torch.matmul(H, W_hh) + b_h)
        H = Z * H + (1 - Z) * H_tilda
        Y = torch.matmul(H, W_hq) + b_q
        outputs.append(Y)
    return outputs, (H,)

LSTM

遗忘门:控制上一时间步的记忆细胞输入门:控制当前时间步的输入
输出门:控制从记忆细胞到隐藏状态
记忆细胞：⼀种特殊的隐藏状态的信息的流动
在这里插入图片描述

def lstm(inputs, state, params):
    [W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc, b_c, W_hq, b_q] = params
    (H, C) = state
    outputs = []
    for X in inputs:
        I = torch.sigmoid(torch.matmul(X, W_xi) + torch.matmul(H, W_hi) + b_i)
        F = torch.sigmoid(torch.matmul(X, W_xf) + torch.matmul(H, W_hf) + b_f)
        O = torch.sigmoid(torch.matmul(X, W_xo) + torch.matmul(H, W_ho) + b_o)
        C_tilda = torch.tanh(torch.matmul(X, W_xc) + torch.matmul(H, W_hc) + b_c)
        C = F * C + I * C_tilda
        H = O * C.tanh()
        Y = torch.matmul(H, W_hq) + b_q
        outputs.append(Y)
    return outputs, (H, C)

深度循环神经网络

在这里插入图片描述

双向循环神经网络

在这里插入图片描述

美式半糖不加奶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
动手学习深度学习—Task04

文章目录GRULSTM深度循环神经网络双向循环神经网络GRURNN存在的问题：梯度较容易出现衰减或爆炸（BPTT）⻔控循环神经⽹络：捕捉时间序列中时间步距离较⼤的依赖关系GRU:Rt=σ(XtWxr+Ht−1Whr+br)Zt=σ(XtWzr+Ht−1Whz+bz)H^t=tanh(XtWxh+(Rt⨀Ht−1)Whh+bh)Ht=Zt⨀Ht−1+(1−Zt)⨀H^tR_t = \...
复制链接

扫一扫