关于句子embedding的一些工作简介(二)---- InferSent

本文介绍了论文Supervised Learning of Universal Sentence Representation from Natural Language Inference Data,提出通过监督学习从NLI数据中获取通用句子表示。作者选择了SNLI作为NLP领域的ImageNet,采用BiLSTM作为最佳句子编码器,实验结果显示模型在多个NLP任务中表现出优秀的迁移能力。
摘要由CSDN通过智能技术生成

这篇文章介绍一下2017年影响力非常大的一篇论文 : Supervised Learning of Universal Sentence Representation from Natural Language Inference Data, by Alexis Conneau et al. 迄今为止它在NLP很多任务上都取得了state of art的成绩。

贡献

关于句子embedding已经有过很多的研究了,按照学习方法可以分为无监督和监督学习两大类。一般来讲如果我们需要的是比较generalized,能够用在各种task中的句子embedding, 无监督方法是一个更好的选择,因为它不太容易受到特定的NLP任务的影响,比如说skip-thought就是很好的利用无监督方法产生句子embedding的算法。

然而论文的作者注意到在Computer Vision领域中,很多模型都是先利用ImageNet预先训练好,之后再用在别的任务上去(迁移学习)。也就是说,监督学习一样可以产生transferrable的特征。基于这样的观察,作者希望以监督学习的方式,找到通用的句子表征。但是作者需要回答两个问题:

  1. 什么样的数据是NLP领域的ImageNet
    数据和任务是紧密联系在一起的。什么样的数据+任务是产生好的universal sentence representations 的数据+任务?
  2. 什么样的模型是NLP领域的Le-Net(VGG-Net, Google-Net, Res-Net, etc)

让我们看看作者给出的答案:

  • NLP领域的ImageNet
    作者给出的答案是SNLISNLI全称为Stanford Natural Language Inference Corpus, 它由570k个人造句子对组成。每一对句子都被标记为三个分类之一:entailment(蕴含), contradiction(矛盾) 和 neutral(中立)。ImageNet对应的任务是image classification, SNLI对应的的任务是NLI。
    作者选中了SNLI的原因是,NLI任务的语义学特性应该会使SNLI成为很好的产生universal sentence embeddings的数据(任务)。我觉得找到SNLI是本篇论文的重大贡献。的确,NLI是很好的理解语义的任务,该任务足够具体,以致于好的模型需要区分三种句子对分类,从而产生足够好的对语义的理解;同时又足够一般化,以致于能够避免产生过于task-spe
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值