Motivation
1.传统的Enc-Dec模型,没有保留source sequence resolution(一种加深对长句子学习的特征)。
2.带注意力的Enc-Dec模型,保留了源句的resolution,不需要把所有信息压缩 到一个固定的表示,但计算复杂度由
∣
S
∣
+
∣
T
∣
|S|+|T|
∣S∣+∣T∣到了
∣
S
∣
×
∣
T
∣
|S|\times|T|
∣S∣×∣T∣,当句子长度上涨,模型复杂度会上升的更明显。
Method
论文中有好几点与翁荣祥师兄的论文很相似:
1.都用到双向的LSTM模型,翁是将修正后的词传入模型,进行前向和后向词的再生成,此篇论文在每一个位置利用双向LSTM得到前后的上下文信息。
2.都利用胶囊网络和动态路由算法对句子的整体信息进行聚合,得到句子的整体表示,翁是单层胶囊网络,但提出注意力池化,能够区分每个胶囊起到的不同的作用;此篇论文设计了一个父子的网络,设计了一个路由算法决定要从子单元中得到的信息,其中加了几个方法:(1)在路由中考虑了位置信息;(2)不共享权重变量;(3)将scoring分离出来。
实验中发现父子胶囊网络中的神经元能够得到结构化的信息,待解释。