lstm结构图_ON-LSTM:能表示语言层次的LSTM

ON-LSTM是一种改进的LSTM结构,旨在捕捉语言的层次结构。通过调整cell state的更新方式,使不同维度对应不同语言层次,从而增强LSTM的表示能力。模型在处理序列时,能学习到句子的层次信息,表现出优于传统LSTM的性能。论文作者展示了如何解析ON-LSTM学到的句子结构,并提供了开源代码。
摘要由CSDN通过智能技术生成

5aae6065932e77c0f802cecb6eb65273.png

序列模型不完美,拥有层次才更佳

LSTM作为序列模型一直是自然语言处理的最佳选择之一,即使transformer出现了也依然无法撼动LSTM在NLP界的江湖地位。

然而,语言虽然看起来是一个序列,实际上内部是有复杂的层次结构的,这也是NLP的难点所在。复杂的层次结构,意味着序列即使看起来相同,也可能应为内部层次结构的不同而有语义的差别

在斯坦福CS224n上提到了这样的一个例子:

The police killed the man with a knife.

这个句子,可以有两种理解:

  1. 警察把那个带刀的人干掉了
  2. 警察用刀干掉了那个人

上面两种解释对应的句法树分别是这样的:

73bc53fb6c4566fe1464cf625271b67e.png

这个根据我自己的理解画的,不一定对啊,但是我想表达的意思就是,序列看起来一样,但是内部的层级结构可能很不一样。

因此很多学者在思考如何将语言的树形结构融入到训练过程中,从而让模型具有更加强大的表示能力。

今天介绍的这篇论文,就设计了一个特殊的LSTM结构,使得模型可以将句子的层级结构给编码进去,从而增强了LSTM的表达能力。这篇论文也是ICLR2019的最佳论文之一。

ICLR 2019 Best paper

cbac1a92d8e298c3fb846732004d6bf5.png

回顾LSTM:

5b811fcaf4cc43f55aecfb614fb1bcbd.png
[LSTM运算流程示意图,来源:苏剑林的博客:https://kexue.fm/archives/6621]

上面这个图是我看到过的画的最清晰的LSTM结构图了。我们跟着图再来回顾一下LSTM的原理。

图中

,都可以看做是历史信息
和当前输入
经过一个全连接层得到,即一个单层神经网络。

三者的激活函数是sigmoid,输出是0-1之间,所以相当于一个控制开关,因此在这里称作“门”。

相当于是把历史信息和当前信息进行一个融合后得到的当前状态。

是历史状态,如何得到输出状态
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值