LSTM 注意力学习心得简要

最新推荐文章于 2024-07-03 18:57:56 发布

becgiggs

最新推荐文章于 2024-07-03 18:57:56 发布

阅读量2.7k

点赞数 3

分类专栏：机器学习

本文链接：https://blog.csdn.net/becgiggs/article/details/90399917

版权

机器学习专栏收录该内容

19 篇文章 0 订阅

订阅专栏

1个月前看的，快忘了，紧急回忆一下。

首先说一下看图像识别时候，百思不得其解的一个事儿，就是自动调整框框，如果识别一条狗，训练的时候，狗都出现在右下角，那么，测试的时候，是不是只能识别右下角的狗，是的，是有一定的区域分布的，就要求训练的时候，狗的位置要分布均匀比较好，这样权重w，就会分布到各处。最让我困惑的是，调整RPN的4个参数△P_MoveLeft, △P_MoveTop,△P_EnlargeHigh,△P_EnlargeWeight, 会不会训练的时候，和测试的的时候狗的位置大小不一样，导致完全失效，训练的到底是什么？其实RPN之前的特征提取网络，可以看成是一种抽象，你看到一个毛茸茸圆滚滚的东西，就可以看成是狗屁股，看到了狗屁股，应该怎么迅速的框住整个够，就是这4个参数要学的。

其次，说一下正题的LSTM。LSTM没有它的名字以及各种介绍说的那么玄乎。其实是一个很简单的idea。它首先要解决什么问题？

梯度爆炸和消失的问题。 output = w1 * w2 * w3 * w4 * w5 *w6...wN * Input。w一旦小于1，梯度就容易消失，由于激励函数的激活区间以及标准化等问题，消失比较容易出现；那么，怎么搞定呢？用短路搞定， output = Input + w1*w2*...Input。这样，求导以后，保证有个1的存在。

刚看的时候，就感觉这么多Activation_Fun(wx+b)，是不是重复？不是的。其实是每个影响到输出相关的都要调节，都要学习。

都有影响输出的相关的东西呢？当前RNN的输入X，前面的H，以及避免梯度消失的短路的X，这个短路用的X也可以历史累计。这样，把所有的影响输出的量都通过Activation_Fun(wx+b)，加一个隐藏进行一次抽象操作，就成了LSTM。

再说注意力机制。LSTM等等相当于是把之前的成果用一个总的Output_History代表。所有的之前的单元都参与到当前运算，激活(w*X+b)，这样的最大的一个好处是方便反向传播求梯度，原因也显而易见，这个式子本身就可以求导。注意力觉得太糙了，每一轮新的计算要用到之前所有的元素，当然，如果是NTM等模型，会有不同的描述方式，大体就是这个意思，具体可以看各种技术资料，我晚上还得加班到10点，没工夫拷贝一遍了。