lstm不收敛_ICLR 2019 最佳论文 ON-LSTM

最新推荐文章于 2020-12-24 07:55:23 发布

weixin_39935092

最新推荐文章于 2020-12-24 07:55:23 发布

阅读量267

点赞数

文章标签： lstm不收敛

最近ICLR2019接受论文已经公布，最佳论文也跟着亮相了，这篇是两篇最佳论文中的其中一篇，另外一篇是《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》。本文题目是《Ordered Neurons: Integrating Tree Structures Into Recurrent Neural Networks》，对神经元进行有序排列，主要对RNN进行改进，应用于NLP任务中。

本文的主要贡献有三个：1、设计了一个新的被作者称为ON-LSTM的模型，该模型偏向于进行树状组成问题的操作；2、模型在4个任务中表现很好：language modeling 语言建模、unsupervised constituency parsing 成分句法分析、targeted syntactic evaluation 目标句法评估、logical inference 逻辑推断；3、在unsupervised constituency parsing中，inductive bias加上人类语言专家定义的规则的模型，比之前的模型表现都要好，作者还发现，在需要长期记忆的任务中，ON-LSTM比standard LSTM的效果要好，并且在长的序列中泛化效果很好。

理论上，RNN和LSTM对上下文有关文法和上下文无关文法的数据都可以建模，但是近期的研究结果发现在LSTM中加入结构信息会更有利（推测理论上LSTM的参数能拟合的很好，但是实际上收敛的时候没有特别好的方法快速收敛，而结构化信息会给模型参数更多限制）

自然语言处理中有上游任务和下游任务（这块读者可以自行去搜索相关内容），本文的成果可作为上游任务的基础。输入数据需要序列数据和它们对应的句法树。像这样，从一棵语法分析树转化为一个RNN：

图1：语法树转化为RNN

有了RNN之后还不行，图中深色的部分就是需要每次输入新值时需要被完全更新的，而浅色的部分是迭代时不完全被更新的部分，也就是说(c)中的S的time scale 要更长一些。至于怎么去决定这个等级的分配，文中对标准的LSTM进行了改进（没错，又是对标准架构的改进，文中也提到了2016ICLR的一篇hierarchy multi-scale RNN），作者称之为ON-LSTM。

标准的LSTM是这样的：

图2：标准LSTM单元更新规则

这里面有forget units，input units，output units，cell单元和隐状态h。作者提出在标准的LSTM中，每个神经元之间是独立工作的，这样很难对神经元进行等级划分，于是对它进行了一些改进。作者引进了一个公式：

图3：函数g_hat

这里的cumsum就是cumulative sum，累和。

定义一个binary gate：

，在ON-LSTM中，cell的状态会通过二值门变成0或1，模型将会对这两种值进行不同的更新规则，从而分级。用随机变量d表示g中第一个1的索引值，那么d就代表了这两种状态的分界线。

图4：p(d)函数

作者通过评估在第k个是分裂点之前的任何值的分离概率来计算g为1的第k个值的概率，即有：

图5：p(g_k=1)

理想中，

是离散随机变量，但是计算离散变量的梯度是不容易的，所以在实际中，作者计算

来进行放宽，这个

由对softmax求累和来得到，因为是

二值变量，所以这等同于求

，所以

。

基于cumax()，下面作者介绍了master forget gate 和master input gate：

图6：master forget gate和master input gate

cumax的值是从1到0单调递减的，也即是在一小段内，的值趋于0，忘掉之前的东西，而的值趋于1，新输入的内容越来越重要。然后就是ON-LSTM的更新规则了：

图7：ON-LSTM 单元门的更新规则

weixin_39935092

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
lstm不收敛_ICLR 2019 最佳论文 ON-LSTM

最近ICLR2019接受论文已经公布，最佳论文也跟着亮相了，这篇是两篇最佳论文中的其中一篇，另外一篇是《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》。本文题目是《Ordered Neurons: Integrating Tree Structures Into Recurrent N...
复制链接

扫一扫