关于句子embedding的一些工作简介（二）---- InferSent

最新推荐文章于 2024-06-04 11:20:32 发布

triplemeng

最新推荐文章于 2024-06-04 11:20:32 发布

阅读量4.2k

点赞数 4

分类专栏：深度学习，人工智能句子嵌入句子embedding 自然语言处理，注意力模型文章标签： InferSent NLP deep 人工智能深度学习

本文链接：https://blog.csdn.net/triplemeng/article/details/81195026

版权

本文介绍了论文Supervised Learning of Universal Sentence Representation from Natural Language Inference Data，提出通过监督学习从NLI数据中获取通用句子表示。作者选择了SNLI作为NLP领域的ImageNet，采用BiLSTM作为最佳句子编码器，实验结果显示模型在多个NLP任务中表现出优秀的迁移能力。

摘要由CSDN通过智能技术生成

这篇文章介绍一下2017年影响力非常大的一篇论文 : Supervised Learning of Universal Sentence Representation from Natural Language Inference Data, by Alexis Conneau et al. 迄今为止它在NLP很多任务上都取得了state of art的成绩。

贡献

关于句子embedding已经有过很多的研究了，按照学习方法可以分为无监督和监督学习两大类。一般来讲如果我们需要的是比较generalized，能够用在各种task中的句子embedding，无监督方法是一个更好的选择，因为它不太容易受到特定的NLP任务的影响，比如说skip-thought就是很好的利用无监督方法产生句子embedding的算法。

然而论文的作者注意到在Computer Vision领域中，很多模型都是先利用ImageNet预先训练好，之后再用在别的任务上去(迁移学习)。也就是说，监督学习一样可以产生transferrable的特征。基于这样的观察，作者希望以监督学习的方式，找到通用的句子表征。但是作者需要回答两个问题:

什么样的数据是NLP领域的ImageNet
数据和任务是紧密联系在一起的。什么样的数据+任务是产生好的universal sentence representations 的数据+任务？
什么样的模型是NLP领域的Le-Net(VGG-Net, Google-Net, Res-Net, etc)

让我们看看作者给出的答案：

NLP领域的ImageNet
作者给出的答案是SNLI。 SNLI全称为Stanford Natural Language Inference Corpus, 它由570k个人造句子对组成。每一对句子都被标记为三个分类之一：entailment（蕴含）, contradiction（矛盾）和 neutral（中立）。ImageNet对应的任务是image classification, SNLI对应的的任务是NLI。
作者选中了SNLI的原因是，NLI任务的语义学特性应该会使SNLI成为很好的产生universal sentence embeddings的数据（任务）。我觉得找到SNLI是本篇论文的重大贡献。的确，NLI是很好的理解语义的任务，该任务足够具体，以致于好的模型需要区分三种句子对分类，从而产生足够好的对语义的理解；同时又足够一般化，以致于能够避免产生过于task-spe