本文是Facebook AI team发表在EMNLP2018,个人觉得比较有意思。文章主要目的是验证NLP领域做迁移学习的可行性,在多种NLP任务上进行sentence level的embedding,实验得出在NLI任务上进行预训练的表达在迁移学习的效果上是最好的,作者认为这是由于NLI任务使得句子向量中蕴含了句法或知识等对句子含义的理解。文章同时还探索了做NLI迁移学习的不同模型,实验表明BiLSTM-maxpooling作为编码器效果最好。文章用具体任务来做Sentence Representations预训练这种方式还是很自然也很有想法的。
(1)基本的NLI模型结构
训练这种模型通常有两种不同的方式:一种是基于句子的编码方式,显示的分离单个句子的编码,二是允许使用两句话编码的联合方法,即使用从一个句子到另一个句子的交叉特征或注意力。本文采用第一种
(2)encoder方案
本文使用的七种主流的encoder方案进行对比:
在后续的迁移任务中效果最好的是BiLSTM-MaxPooling,
但其中提到的Inner-attention和H ierarchical ConvNet architecture也很有意思,这里把结构图列出来:
(3)在不同的任务上证明了本文提出的NLI预训练进行迁移学习的可行性
(4)embedding size对效果的影响
可以看出增大embeding size对迁移学习的提升是有好处的。