动手学深度学习(四十)——长短期记忆网络(LSTM)

一、长短期记忆网络(LSTM)

  最早用来处理隐变量模型存在的长期信息保存和短期输入跳跃问题的方法(long short-term memory LSTM)。其拥有许多门控循环单元相同的属性。LSTM比GRU更复杂,但是其比GRU早诞生20年左右。

1.1 门控记忆单元

  LSTM引入了存储单元(memory cell),简称为单元(cell)。有些文献认为存储单元是隐藏状态的一种特殊类型,它们与隐藏状态具有相同的形状,其设计目的是用于记录附加的信息。为了控制存储单元,我们需要许多门。其中一个门用来从单元中读出条目。我们将其称为 输出门(output gate)。另外一个门用来决定何时将数据读入单元。我们将其称为 输入门(input gate)。最后,我们需要一种机制来重置单元的内容,由遗忘门(forget gate)来管理。这种设计的动机与门控循环单元相同,即能够通过专用机制决定什么时候记忆或忽略隐藏状态中的输入。让我们看看这在实践中是如何运作的。

  • 遗忘门:将值朝0方向减少
  • 输入门:决定是否忽略输入数据
  • 输出门:决定是不是使用隐藏状态

1.2 输入门、遗忘门与输出门

  就如在门控循环单元中一样,当前时间步的输入和前一个时间步的隐藏状态作为数据送入长短期记忆网络门中,如下图所示。它们由三个具有 sigmoid 激活函数的全连接层处理,以计算输入门、遗忘门和输出门的值。因此,这三个门的值都在 ( 0 , 1 ) (0, 1) (0,1) 的范围内。

数学描述,假设有 h h h 个隐藏单元,批量大小为 n n n,输入数为 d d d。因此,输入为 X t ∈ R n × d \mathbf{X}_t \in \mathbb{R}^{n \times d} XtRn×d,前一时间步的隐藏状态为 H t − 1 ∈ R n × h \mathbf{H}_{t-1} \in \mathbb{R}^{n \times h} Ht1Rn×h。相应地,时间步 t t t 的门被定义如下:输入门是 I t ∈ R n × h \mathbf{I}_t \in \mathbb{R}^{n \times h} ItRn×h,遗忘门是 F t ∈ R n × h \mathbf{F}_t \in \mathbb{R}^{n \times h} FtRn×h,输出门是 O t ∈ R n × h \mathbf{O}_t \in \mathbb{R}^{n \times h} OtRn×h。它们的计算方法如下:

I t = σ ( X t W x i + H t − 1 W h i + b i ) , F t = σ ( X t W x f + H t − 1 W h f + b f ) , O t = σ ( X t W x o + H t − 1 W h o + b o ) , \begin{aligned} \mathbf{I}_t &= \sigma(\mathbf{X}_t \mathbf{W}_{xi} + \mathbf{H}_{t-1} \mathbf{W}_{hi} + \mathbf{b}_i),\\ \mathbf{F}_t &= \sigma(\mathbf{X}_t \mathbf{W}_{xf} + \mathbf{H}_{t-1} \mathbf{W}_{hf} + \mathbf{b}_f),\\ \mathbf{O}_t &= \sigma(\mathbf{X}_t \mathbf{W}_{xo} + \mathbf{H}_{t-1} \mathbf{W}_{ho} + \mathbf{b}_o), \end{aligned} ItFtOt=σ(XtWxi+Ht1Whi+bi),=σ(XtWxf+Ht1Whf+bf),=σ(XtWxo+Ht1Who+bo),

其中 W x i , W x f , W x o ∈ R d × h \mathbf{W}_{xi}, \mathbf{W}_{xf}, \mathbf{W}_{xo} \in \mathbb{R}^{d \times h} Wxi,Wxf,WxoRd×h W h i , W h f , W h o ∈ R h × h \mathbf{W}_{hi}, \mathbf{W}_{hf}, \mathbf{W}_{ho} \in \mathbb{R}^{h \times h} Whi,Whf,WhoRh×h 是权重参数, b i , b f , b o ∈ R 1 × h \mathbf{b}_i, \mathbf{b}_f, \mathbf{b}_o \in \mathbb{R}^{1 \times h} bi,bf,boR1×h 是偏置参数。


1.3候选记忆单元

  接下来,设计记忆单元。由于还没有指定各种门的操作,所以先介绍 候选记忆单元(candidate memory cell) C ~ t ∈ R n × h \tilde{\mathbf{C}}_t \in \mathbb{R}^{n \times h} C~tRn×h。它的计算与上面描述的三个门的计算类似,但是使用 tanh ⁡ \tanh tanh 函数作为激活函数,函数的值范围为 ( − 1 , 1 ) (-1, 1) (1,1)。下面导出在时间步 t t t 处的方程:

C ~ t = tanh ( X t W x c + H t − 1 W h c + b c ) , \tilde{\mathbf{C}}_t = \text{tanh}(\mathbf{X}_t \mathbf{W}_{xc} + \mathbf{H}_{t-1} \mathbf{W}_{hc} + \mathbf{b}_c), C~t=tanh(XtWxc+Ht1Whc+bc),

其中 W x c ∈ R d × h \mathbf{W}_{xc} \in \mathbb{R}^{d \times h} WxcRd×h W h c ∈ R h × h \mathbf{W}_{hc} \in \mathbb{R}^{h \times h} WhcRh×h 是权重参数, b c ∈ R 1 × h \mathbf{b}_c \in \mathbb{R}^{1 \times h} bcR1×h 是偏置参数。

候选记忆单元的图示如下


1.4 记忆单元

  在门控循环单元中,有一种机制来控制输入和遗忘(或跳过)。类似地,在长短期记忆网络中,也有两个门用于这样的目的:输入门 I t \mathbf{I}_t It 控制采用多少来自 C ~ t \tilde{\mathbf{C}}_t C~t 的新数据,而遗忘门 F t \mathbf{F}_t Ft 控制保留了多少旧记忆单元 C t − 1 ∈ R n × h \mathbf{C}_{t-1} \in \mathbb{R}^{n \times h} Ct1Rn×h 的内容。使用与前面相同的按元素做乘法的技巧,得出以下更新公式:

C t = F t ⊙ C t − 1 + I t ⊙ C ~ t . \mathbf{C}_t = \mathbf{F}_t \odot \mathbf{C}_{t-1} + \mathbf{I}_t \odot \tilde{\mathbf{C}}_t. Ct=FtCt1+ItC~t.

如果遗忘门始终为 1 1 1 且输入门始终为 0 0 0,则过去的记忆单元 C t − 1 \mathbf{C}_{t-1} Ct1 将随时间被保存并传递到当前时间步。引入这种设计是为了缓解梯度消失问题,并更好地捕获序列中的长距离依赖关系。

这样就得到了流程图,如下。

1.5 隐藏状态

  最后,我们需要定义如何计算隐藏状态 H t ∈ R n × h \mathbf{H}_t \in \mathbb{R}^{n \times h} HtRn×h。这就是输出门发挥作用的地方。在长短期记忆网络中,它仅仅是记忆单元的 tanh ⁡ \tanh tanh 的门控版本。这就确保了 H t \mathbf{H}_t Ht 的值始终在区间 ( − 1 , 1 ) (-1, 1) (1,1) 内。

H t = O t ⊙ tanh ⁡ ( C t ) . \mathbf{H}_t = \mathbf{O}_t \odot \tanh(\mathbf{C}_t). Ht=Ottanh(Ct).

  只要输出门接近 1 1 1,我们就能够有效地将所有记忆信息传递给预测部分,而对于输出门接近 0 0 0,我们只保留存储单元内的所有信息,并且没有进一步的过程需要执行。

下面是全部数据流的图形化演示。

二、从零实现LSTM

import torch
from torch import nn
from d2l import torch as d2l
# load data iter
batch_size, num_steps = 32, 35
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)

2.1 初始化模型参数

# 随便初始化,这里采用标准差为0.01的高斯分布初始化,偏置使用0
def get_lstm_params(vocab_size,num_hiddens,device):
    num_inputs = num_outputs = vocab_size
    
    def normal(shape):
        return torch.randn(size=shape,device=device)*0.01
    def three():
        return(normal((num_inputs,num_hiddens)),
               normal((num_hiddens,num_hiddens)),
               torch.zeros(num_hiddens,device=device))
    W_xi, W_hi, b_i = three()  # 输入门参数
    W_xf, W_hf, b_f = three()  # 遗忘门参数
    W_xo, W_ho, b_o = three()  # 输出门参数
    W_xc, W_hc, b_c = three()  # 候选记忆单元参数
    # 输出层参数
    W_hq = normal((num_hiddens, num_outputs))
    b_q = torch.zeros(num_outputs, device=device)
    # 附加梯度
    params = [
        W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc, b_c,
        W_hq, b_q]
    for param in params:
        param.requires_grad_(True)
    return params

2.2 定义网络模型

在初始化函数之中,LSTM的隐藏状态需要返回一个额外的记忆单元,其单元的值为0,形状为(批量大小,隐藏单元数)。

def init_lstm_state(batch_size,num_hiddens,device):
    return (torch.zeros((batch_size,num_hiddens),device=device),
            torch.zeros((batch_size,num_hiddens),device=device))
# 实际模型的定义与前面定义相同,提供三个门和一个额外的记忆单元。只有隐藏状态才会传递到输出层,而记忆单元不直接参与输出计算
def lstm(inputs,state,params):
    [W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc, b_c,W_hq, b_q] = params
    (H,C) = state
    outputs = []
    for X in inputs:
        I = torch.sigmoid((X@W_xi)+(H@W_hi)+b_i)
        F = torch.sigmoid((X @ W_xf) + (H @ W_hf) + b_f)
        O = torch.sigmoid((X @ W_xo) + (H @ W_ho) + b_o)
        C_tilda = torch.tanh((X @ W_xc) + (H @ W_hc) + b_c)
        C = F * C + I * C_tilda
        H = O * torch.tanh(C)
        Y = (H @ W_hq) + b_q
        outputs.append(Y)
    return torch.cat(outputs, dim=0), (H, C)

2.3 训练和预测

vocab_size, num_hiddens, device = len(vocab), 256, d2l.try_gpu()
num_epochs, lr = 500, 1
model = d2l.RNNModelScratch(len(vocab), num_hiddens, device, get_lstm_params,init_lstm_state, lstm)
d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)
perplexity 1.1, 49112.9 tokens/sec on cuda:0
time traveller for so it will be convenient to speak of himwas e
traveller abcerthen thing the time traveller held in his ha

2.4 简洁实现

num_inputs = vocab_size
lstm_layer = nn.LSTM(num_inputs, num_hiddens)
model = d2l.RNNModel(lstm_layer, len(vocab))
model = model.to(device)
d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)
perplexity 1.1, 281347.3 tokens/sec on cuda:0
time traveller for so it will be convenient to speak of himwas e
travelleryou can show black is white by argument said filby

  长短期记忆网络是典型的具有重要状态控制的隐变量自回归模型。多年来已经提出了其许多变体,例如,多层、残差连接、不同类型的正则化。然而,由于序列的长距离依赖性,训练长短期记忆网络和其他序列模型(例如门控循环单元)的成本是相当高的。在后面的内容中,我们将遇到可在某些情况下使用的替代模型,如 Transformer。

小结

  • 长短期记忆网络有三种类型的门:输入门、遗忘门和控制信息流的输出门。
  • 长短期记忆网络的隐藏层输出包括“隐藏状态”和“记忆单元”。只有隐藏状态会传递到输出层,而记忆单元完全属于内部信息。
  • 长短期记忆网络可以缓解梯度消失和梯度爆炸。

练习

  1. 你需要如何更改模型以生成适当的单词,而不是字符序列

在输入的时候,我们需要将一个个单词当成vocab进行编码,但是这样的话,onehot编码的大小可能需要变得非常大了。进行数据整理,给每个单词一个对应的编号,对这个编号进行onehot编码也可以。

  1. 在给定隐藏层维度的情况下,比较门控循环单元、长短期记忆网络和常规循环神经网络的计算成本。要特别注意训练和推理成本。
  2. 既然候选记忆单元通过使用 tanh ⁡ \tanh tanh 函数来确保值范围在 ( − 1 , 1 ) (-1,1) (1,1) 之间,那么为什么隐藏状态需要再次使用 tanh ⁡ \tanh tanh 函数来确保输出值范围在 ( − 1 , 1 ) (-1,1) (1,1) 之间呢?

I t = σ ( X t W x i + H t − 1 W h i + b i ) , F t = σ ( X t W x f + H t − 1 W h f + b f ) , O t = σ ( X t W x o + H t − 1 W h o + b o ) , \begin{aligned} \mathbf{I}_t &= \sigma(\mathbf{X}_t \mathbf{W}_{xi} + \mathbf{H}_{t-1} \mathbf{W}_{hi} + \mathbf{b}_i),\\ \mathbf{F}_t &= \sigma(\mathbf{X}_t \mathbf{W}_{xf} + \mathbf{H}_{t-1} \mathbf{W}_{hf} + \mathbf{b}_f),\\ \mathbf{O}_t &= \sigma(\mathbf{X}_t \mathbf{W}_{xo} + \mathbf{H}_{t-1} \mathbf{W}_{ho} + \mathbf{b}_o), \end{aligned} ItFtOt=σ(XtWxi+Ht1Whi+bi),=σ(XtWxf+Ht1Whf+bf),=σ(XtWxo+Ht1Who+bo), C ~ t = tanh ( X t W x c + H t − 1 W h c + b c ) , \tilde{\mathbf{C}}_t = \text{tanh}(\mathbf{X}_t \mathbf{W}_{xc} + \mathbf{H}_{t-1} \mathbf{W}_{hc} + \mathbf{b}_c), C~t=tanh(XtWxc+Ht1Whc+bc), C t = F t ⊙ C t − 1 + I t ⊙ C ~ t . \mathbf{C}_t = \mathbf{F}_t \odot \mathbf{C}_{t-1} + \mathbf{I}_t \odot \tilde{\mathbf{C}}_t. Ct=FtCt1+ItC~t. H t = O t ⊙ tanh ⁡ ( C t ) . \mathbf{H}_t = \mathbf{O}_t \odot \tanh(\mathbf{C}_t). Ht=Ottanh(Ct).

  • 4
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
吴恩达的深度学习笔记翻译,里面的目录已经做好,可以直接作为书去打印,欢迎大家下载。课程概述 这些课程专为已有一定基础(基本的编程知识,熟悉Python、对机器习有基本了解),想要尝试进入人工智能领域的计算机专业人士准备。介绍显示:“深度学习是科技业最热门的技能之一,本课程将帮你掌握深度学习。” 在这5堂课中,生将可以习到深度学习的基础,会构建神经网络,并用在包括吴恩达本人在内的多位业界顶尖专家指导下创建自己的机器习项目。Deep Learning Specialization对卷积神经网络 (CNN)、递归神经网络 (RNN)、长短期记忆 (LSTM) 等深度学习常用的网络结构、工具和知识都有涉及。 课程中也会有很多实操项目,帮助生更好地应用自己到的深度学习技术,解决真实世界问题。这些项目将涵盖医疗、自动驾驶、和自然语言处理等时髦领域,以及音乐生成等等。Coursera上有一些特定方向和知识的资料,但一直没有比较全面、深入浅出的深度学习课程——《深度学习专业》的推出补上了这一空缺。 课程的语言是Python,使用的框架是Google开源的TensorFlow。最吸引人之处在于,课程导师就是吴恩达本人,两名助教均来自斯坦福计算机系。完成课程所需时间根据不同的习进度,大约需要3-4个月左右。生结课后,Coursera将授予他们Deep Learning Specialization结业证书。 “我们将帮助你掌握深度学习,理解如何应用深度学习,在人工智能业界开启你的职业生涯。”吴恩达在课程页面中提到。 本人黄海广博士,以前写过吴恩达老师的机器习个人笔记。有朋友报名了课程,下载了这次课程的视频给大家分享。Coursera的字幕不全,同们在习上感觉非常不方便,因此我找志同道合的朋友翻译和整理字幕,中英文字幕来自于由我和曹骁威同组织爱好者翻译,希望对大家有所帮助。(备注:自网易公开课翻译深度学习课程后,我们不再翻译)

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

留小星

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值