2019 EMNLP上的一篇文章。[paper]
一些研究表明,基于self-attention networks(SANs)和RNNs的混合建模要比单独使用二者建模表现更好[1],并且在很多自然语言处理任务中,对层次结构的建模十分重要。因此本文的 基本思想 就是使用Ordered Neurons LSTM(ON-LSTM)[2]对基于SANs和RNNs二者的混合模型进行改进,使其能够对层次结构进行建模。ON-LSTM通过引入syntax-oriented inductive bias,控制每个神经元的更新频率,使得LSTM能够具有树状结构。
关于ON-LSTM的更多描述可参见这篇文章,讲解十分清晰。
Model
方法就是在RNNs层上再叠加SANs层。网络结构如下:
其中,
E
N
C
R
N
N
s
(
⋅
)
\mathrm {ENC}_{\mathrm {RNN}s}(\cdot)
ENCRNNs(⋅) 是
K
K
K 层RNNs编码器,
E
N
C
S
A
N
s
(
⋅
)
\mathrm {ENC}_{\mathrm {SAN}s}(\cdot)
ENCSANs(⋅) 是
L
L
L 层SANs编码器。RNNs层使用ON-LSTM来建模输入序列的层次结构。
Experiment
在语言建模、有针对性的语法评估及逻辑推理三个任务上进行了实验。
[1] Mia Xu Chen, Orhan Firat, Ankur Bapna, Melvin Johnson, Wolfgang Macherey, George Foster, Llion Jones, Mike Schuster, Noam Shazeer, Niki Parmar, Ashish Vaswani, Jakob Uszkoreit, Lukasz Kaiser, Zhifeng Chen, Yonghui Wu, and Macduff Hughes. 2018. The best of both worlds: Combining recent advances in neural machine translation. In ACL.
[2] Yikang Shen, Shawn Tan, Alessandro Sordoni, and Aaron Courville. 2019. Ordered neurons: Integrating tree structures into recurrent neural networks. In ICLR.