最近ICLR2019接受论文已经公布,最佳论文也跟着亮相了,这篇是两篇最佳论文中的其中一篇,另外一篇是《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》。本文题目是《Ordered Neurons: Integrating Tree Structures Into Recurrent Neural Networks》,对神经元进行有序排列,主要对RNN进行改进,应用于NLP任务中 。
本文的主要贡献有三个:1、设计了一个新的被作者称为ON-LSTM的模型,该模型偏向于进行树状组成问题的操作;2、模型在4个任务中表现很好:language modeling 语言建模、unsupervised constituency parsing 成分句法分析、targeted syntactic evaluation 目标句法评估、logical inference 逻辑推断;3、在unsupervised constituency parsing中,inductive bias加上人类语言专家定义的规则的模型,比之前的模型表现都要好,作者还发现,在需要长期记忆的任务中,ON-LSTM比standard LSTM的效果要好,并且在长的序列中泛化效果很好。
理论上,RNN和LSTM对上下文有关文法和上下文无关文法的数据都可以建模,但是近期的研究结果发现在LSTM中加入结构信息会更有利(推测理论上LSTM的参数能拟合的很好,但是实际上收敛的时候没有特别好的方法快速收敛,而结构化信息会给模型参数更多限制)
自然语言处理中有上游任务和下游任务(这块读者可以自行去搜索相关内容),本文的成果可作为上游任务的基础。输入数据需要序列数据和它们对应的句法树。像这样,从一棵语法分析树转化为一个RNN:
![b22c8caf8c805ce353979eb3e8d54ef3.png](https://i-blog.csdnimg.cn/blog_migrate/a9fdeec73436c016577cb76cdef43e7c.jpeg)
有了RNN之后还不行,图中深色的部分就是需要每次输入新值时需要被完全更新的,而浅色的部分是迭代时不完全被更新的部分,也就是说(c)中的S的time scale 要更长一些。至于怎么去决定这个等级的分配,文中对标准的LSTM进行了改进(没错,又是对标准架构的改进,文中也提到了2016ICLR的一篇hierarchy multi-scale RNN),作者称之为ON-LSTM。
标准的LSTM是这样的:
![d0d8075ed21e754ba53c6a2999c4b448.png](https://i-blog.csdnimg.cn/blog_migrate/bf83242c4ba935833dc58d7ed6044632.jpeg)
这里面有forget units,input units,output units,cell单元和隐状态h。作者提出在标准的LSTM中,每个神经元之间是独立工作的,这样很难对神经元进行等级划分,于是对它进行了一些改进。作者引进了一个公式:
![a9e8a1c646ba56ccefe0b2945853b94d.png](https://i-blog.csdnimg.cn/blog_migrate/c513ec053c1ada27ce2faac6930163b4.jpeg)
这里的cumsum就是cumulative sum,累和。
定义一个binary gate:
![1e6898e829e4c9be71fa6b82e974b161.png](https://i-blog.csdnimg.cn/blog_migrate/27cee975a15bfa186c35bd0ac7276f13.jpeg)
作者通过评估在第k个是分裂点之前的任何值的分离概率来计算g为1的第k个值的概率,即有:
![e8e45d60f0ee2068c217a96c3b983e1a.png](https://i-blog.csdnimg.cn/blog_migrate/00e1c2974eb72c3a1b802d8e047c7f95.jpeg)
理想中,
基于cumax(),下面作者介绍了master forget gate 和master input gate:
![34f66eefa6ec1d4fe73600f81b08f8ef.png](https://i-blog.csdnimg.cn/blog_migrate/c7351f6bd83b6dee7be52b81511adc9a.jpeg)
cumax的值是从1到0单调递减的,也即是在一小段内,的值趋于0,忘掉之前的东西,而的值趋于1,新输入的内容越来越重要。然后就是ON-LSTM的更新规则了:
![c6d0a0624135bf01444074d6498f959d.png](https://i-blog.csdnimg.cn/blog_migrate/2d9ed90ea2104a7a3c7611bdfad7bca8.jpeg)