试谈`RNN`中`门`的变迁

最新推荐文章于 2022-08-23 11:29:34 发布

iofu728

最新推荐文章于 2022-08-23 11:29:34 发布

阅读量443

点赞数

分类专栏： NLP 文章标签： RNN NLP ML 循环神经网络门

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iofu728/article/details/83721174

版权

本文探讨了RNN家族的演变，从Naïve RNN到LSTM、GRU，再到简化门运算的SRU及类似模型。重点分析了LSTM的门结构及其在时间序列信息处理中的作用，以及GRU和SRU如何通过减少计算量来提升效率。最后提到了self-attention机制在处理序列信息时的并行计算优势。

摘要由CSDN通过智能技术生成

终于发完proposal 的邮件深吸一口气

~~希望明天不要被怼的太惨~~

已经连续 ~~高强度（hua shui)~~ 看paper n天了

一切索然无味

随着看到的paper层次越来越高

就越发羡慕搞NLP的

昨天还在跟室友说一开始觉得写SMN的WuWei dalao指不定是个中年油腻大叔

结果人家研究生还没毕业

哇满脸的羡慕

言归正传打算用两三篇blog 讲一下最近学习的多轮检索式对话这个领域

第一篇就来谈一谈在检索式对话中用到最多的 RNN 模型家族 ~~(之所以称之为家族因为变种太多了)~~

Naïve RNN

RNN = Recureent Neural Network

翻译成中文就是循环神经网络（注意不是递归，虽然它的过程很递归）

和传统的卷积神经网络CNN 全连接神经网络DNN不同的是其包含时序信息

顺带说一下另外两者的特点

DNN: n层与n-1层每个都有关, 参数数量级巨大;
CNN: 卷积+pool，至于什么是卷积？加权叠加

这一点十分有利于用于训练和时间相关的Dataset 尤其是NLP方面

有没有觉得很像马尔科夫链~~(en 不是过程就是链)~~

事实上在有CNN之前确实一般都做成隐马尔科夫链

NN起源于多层感知机MLP

感知机之所以能战胜同时期的元胞自动机异军突起主要是其拥有反向传播算法

但NN随着训练层数的增大会出现梯度消失现象但层度深确实效果好呀

于是就有一堆学者提出了各种办法使得 NN的层数能够扩展

比如说预处理高速公路网络(highway network)和深度残差学习(deep residual learning)

时序的效果不仅仅是训练结果和之前的转态有关还带来了变长度输出的特性这点和其他NN尤为不同

图片.png | center | 556x500

CNN 可以在下一个时间点把输出作用在节点自身

如果按时间展开就变成那张经典的图作用在t+1时刻输出o(t+1)是该时刻输入和所有历史共同作用的结果

图片.png | center | 556x500

可以看出 $s_{t+1}, o_t = f(s_t, x_t, U, V, W)$

和别的NN不同的是RNN所有步骤共享相同的参数 $U, V, W$

有正向的RNN 很容易想到是不是还有双向的(Bidirectional RNN) 深度(Deep Bidirectional RNN)

但对于上述RNN都不可避免的会出现前面说的梯度消失的现象

只不过在这里对的是时间维度上的消失(即时序信息传播不过k间隔)

所以就有了一系列改进版RNN

LSTM

比如说最著名的LSTM[4]

LSTM = LONG SHORT-TERM MEMORY

其通过门的设置来实现长时期的记忆能力

LSTM每个时刻的hidden state包含了多个memory blocks

每个block包含了多个memory cell

每个memory cell包含一个Cell和三个门Gate: 输入门，输出门，遗忘门

图片.png | center | 556x500

Forward Pass

$I n p u t G a t e$
$a_l^t=\sum\limits_{i=1}^Iw_{il}x_i^t+\sum\limits_{h=1}^Hw_{hl}b_h^{t-1}+\sum\limits_{c=1}^Cw_{cl}s_c^{t-1}$

$b_l^t=f(a_l^t)$
$F o r g e t G a t e$
$a_\phi^t=\sum\limits_{i=1}^Iw_{i\phi}x_i^t+\sum\limits_{h=1}^Hw_{h\phi}b_h^{t-1}+\sum\limits_{c=1}^Cw_{c\phi}s_c^{t-1}$

$b_\phi^t=f(a_\phi^t)$
$C e l l$
$a_c^t=\sum\limits_{i=1}^Iw_{ic}x_i^t+\sum\limits_{h=1}^Hw_{hc}b_h^{t-1}$

$s_c^t=b_\phi ^ts_c^{t-1}+b_l^tg(a_c^t)$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。