关于RNN的几点疑问（杂乱）

最新推荐文章于 2020-12-07 14:30:16 发布

CTTACM

最新推荐文章于 2020-12-07 14:30:16 发布

阅读量230

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/CTTACM/article/details/87903644

版权

机器学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

关于RNN的理解

这是在读Understanding LSTM Networks这篇文章的时候，对一些之前不明白的点的理解和对一些地方的疑问的记录。希望以后看的更多相关的知识能够搞清楚。

图中的黄色的带有激活函数的长方形就是代表神经网络，即由激活函数包裹着的线性运算单元，即 $tanh(\sum(W*X + b))$ 。
“门"结构由一个"激活神经网络"和一个"点乘运算"构成。LSTM有三种门结构调节"cell state”（其实只有前两个门调节，后一个主要是用于output的。）。
LSTM的关键就在于"cell state", " cell state"就像是传送带一样。在其上只做很小的线性运算。很容易保持不变。"门"结构能够对"cell state"移除或者添加信息。
sigmoid 门结构输出一些值的范围在0~1之间的向量，意思是有多少部分应该被通过。如果是0向量，意味着信息都不能通过，如果是1向量，意味着全部都可以通过。
没搞清楚遗忘门是如何对"cell state（向量）"进行操作的。遗忘门是 $concat(h_{t-1},x_t)$ 这个通过sigmoid之后产生一个-0~1数值的向量，代表对应的“cell state（向量）”哪些部分遗忘的不同程度,但它俩是如何运作的呢？遗忘门产生的向量是多长的？“cell state”的长度是多长的？两者一样长？答：两者从神经以规定的长度进入神经网络，但是出来的时候的长度有网络本身决定，与输入无关。
更新门由两部分组成，sigmoid部分决定哪些我们需要更新，（是不是这样，这里是根据当下的输入的情况，决定“cell state”中应该去掉哪些？）tanh部分决定（也是只根据当下的输入情况而不用看“cell state中的情况”，想法：那我能不能让cellstate也参与进来。。）哪些输入应该进入cell state中。最后结合sigmoid部分和tanh部分，得到的就是更新的情况。
最后一个门没看明白啥意思。。。（tanh的范围是从-1到1，这应该怎么理解？）
最后的输出是决定哪些应该被保留下来。其中sigmoid决定了输入中哪些是应该被保留下来的（之前的意思是sigmoid决定哪些要遗忘，但其实也是决定哪些要保留），然后tanh决定“cell state”中哪些是重要的（原句：a tanh layer creates a vector of new candidate values）然后结合两者确定了哪些作为output部分。

CTTACM

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于RNN的几点疑问（杂乱）

关于RNN的理解这是在读Understanding LSTM Networks这篇文章的时候，对一些之前不明白的点的理解和对一些地方的疑问的记录。希望以后看的更多相关的知识能够搞清楚。图中的黄色的带有激活函数的长方形就是代表神经网络，即由激活函数包裹着的线性运算单元，即tanh(∑(w∗x+b))tanh(\sum(w*x + b))tanh(∑(w∗x+b))。“门&amp;quot;结构由一个&amp;quot;激活神经...
复制链接

扫一扫

专栏目录