LSTM和GRU

摘自

基于递归神经网络的文本分类研究》

https://www.cnblogs.com/taojake-ML/p/6272605.html

http://www.sohu.com/a/197204613_115128

递归神经网络RNN。可以对序列数据进行很好的建模,能够充分地利用序列信息。由于RNN是依次对文本中的每个单词进行语义合成,因此它可以适应变长的句子,即不要求文本长度的统一,对长文本和短文本皆可以学习。图1给出了一个传统的递归神经网络结构。

1 中, xt 是第 t 步的输入单元,在文本中, 它代表第 t 个单词的词向量; ht 是第 t 步的隐藏状态;ot 表示第 t 步的输出, 通常这一步输出是一个 softmax 分类器,该输出是否选用可根据模型的需要确定; UV W 是网络的权重参数,需要在模型中学习得到如图 1 所示, 虚线方框内是第 t 个单元的计算过程,具体如下


这里变量 bh bo 表示偏置项由公式( 1) 可知, 递归神经网络的每个隐藏状态由当前的输入词和前一步的隐藏状态决定如果在特定的任务中, 不需要对每个合成步骤都附加分类器, 则 ot 可不输出 传统递归神经网络的缺点是随着文本长度的增加, 网络的层数逐渐加深, 网络在信息合成的过程中损失比较大,往往偏重于记忆最后阶段内容的学习,因此对长文本学习效果欠佳

LSTM

LSTM GRU 节点的优势是可以在合成的过程中设置一些门来控制当前合成步骤中应当对前面信息接收多少, 遗忘多少, 并且向后面传递多少信息通过这些门域的控制, RNN 对长文本具有很好的学习能力LSTM GRU 不同之处在于 LSTM 具有更多的参数, GRU 参数较少, 因而具有更快的计算速度因此,对于大数据学习而言, LSTM 节点具有更强的学习能力。


LSTM 节点中, ifo 分别是输入门、忘记门和输出门,这些门控制着信息通过的比例




g 是候选的隐藏状态, 与传统 RNN 中计算隐藏状态的方式类似; 

ct 是内部记忆,由 t-1步的记忆ct-1g 通过记忆门和输入门加权构成; 

ht 为真实的输出状态, 是内部记忆 ct 在输出门输出的信息

GRU



z 是更新门,决定是否忽略当前词xt。类似于LSTM中的输入门it, zt可以判断当前词xt对整体意思的表达是否重要。当zt开关接通下面的支路时,我们将忽略当前词xt,同时构成了从ht-1到ht的”短路连接”,这梯度得已有效地反向传播。和LSTM相同,这种短路机制有效地缓解了梯度消失现象, 这个机制于highwaynetworks十分相似。

r是重置门,用于控制前一时刻隐层单元ht-1对当前词xt的影响。如果ht-1对xt不重要,即从当前词xt开始表述了新的意思,与上文无关, 那么rt开关可以打开, 使得ht-1对xt不产生影响。








评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值