[NLP论文阅读]Learned in Translation: Contextualized Word Vectors

最新推荐文章于 2024-06-27 09:54:16 发布

左脚能拉小提琴

最新推荐文章于 2024-06-27 09:54:16 发布

阅读量4.6k

点赞数 1

分类专栏： paper阅读文章标签： nlp 阅读

本文链接：https://blog.csdn.net/sinat_31188625/article/details/77507333

版权

论文提出通过机器翻译任务训练的双向LSTM得到上下文向量CoVe，用于增强词向量并提升NLP任务（如情感分析、问题分类）的性能。实验表明，CoVe结合GloVe在多项任务中表现优于单独使用GloVe或随机初始化的词向量。

摘要由CSDN通过智能技术生成

论文原文：Learned in Translation: Contextualized Word Vectors

题外话

前段时间一直在写自己的论文，目前论文基本成型，又要转入新一阶段的论文阅读了。由于对GAN等技术不是很了解，所以在挑选论文的时候有选择的避开了和这些技术有关的内容。由于之前一直在学习LSTM，所以就挑选了这篇和LSTM有关的论文进行阅读学习。后期希望能跟上目前NLP技术的脚步，了解一些比较新的技术。

引言

现在比较流行的词向量学习方法有Word2Vec、GloVe等，并且把这些词向量作为一些下游任务的初始化可以提升模型的性能。但是一个词在不同的上下文的意思是不同的，如果准确捕捉到精准的词义依然是NLP中的难题。作者发现，在图像识别领域，研究者经常把ImageNet上预训练的CNN用于其他图像识别模型。那么在NLP中，也可以把一个任务中训练好的模型用于另外一个任务。基于这样的想法，作者提出了将context vectors（CoVe）添加到原有的模型中的方法，并且通过实验证明在常见的NLP任务，例如情感分析、问题分类、推理和问答等，都起到了提升性能的作用。

基本思想

通用架构图
这是文章中给出的一个common architecture。
a)是一个典型的encoder-decoder模型，经常被用于机器翻译中。在这个工作中，作者训练了一个两层双向的LSTM模型作为基于注意力的sequence-to-sequence机器翻译模型的encoder并且将其应用于其他的NLP任务。