[ELMo]Deep contextualized word representations记录

ELMo是2018年NAACL的最佳论文提出的深度语境化词表征模型,解决了传统词向量的局限。通过预训练的双向深度语言模型,ELMo能捕捉词的句法、语义特征和多义词在不同语境的变化,提升NLP任务的性能。实验显示,ELMo在多个自然语言处理任务中显著提高了最佳结果,并证明了模型内部多层结构的重要性。
摘要由CSDN通过智能技术生成

Deep contextualized word representations是2018年NAACL的BestPaper,提出ELMo模型,突破了word2vec glove等传统词向量的限制,所以找了个时间阅读并尝试翻译了一下这篇Paper,水平有限,仅供参考,也欢迎一起学习交流!

深度语境化词表征

摘要

文章推出了一种新型的深度语境化词表征模型,该模型可以对复杂的词特征(句法、语义)以及词在不同语言语境中的变化进行建模。

ELMo模型中包含一个基于大文本语料预训练后的深度双向语言模型,而ELMo词向量则是该深度双向语言模型的内部状态函数。

实验证明经过ELMo模型训练得出的词向量可以轻易的加入现有的模型,并且显著的提升了六个富有挑战性的自然语言处理领域问题的最佳结果,其中包括问答、文本语义、情感分析等。

在本文中同时证明了预训练深度双向语言模型的内部多层结构是至关重要的,通过混合不同层的自由组合,可以更好的应付下游任务中的性能。

1.介绍

在自然语言理解的模型中,预训练词表征技术是一个关键组成部分。然而,高质量的词表征是具有挑战性的。

一个高质量的词表征在理想的情况下需要基于:
(1)词的复杂特征(句法以及语义)

(2)这些词在不同语言环境下的变化(例如多义词)

进行建模。

在这篇文章中,作者提出了一种能够直接解决上述两个难点,并且能够轻易的结合现有的模型,显著的优化一系列自然语言处理问题的深度语境化词表征技术。

在该模型中,与传统词嵌入方法不同的是:每一个词表征(词向量)都是整个输入句子的函数。

该模型的词向量是由一个基于大量文本训练的双向lstm语言模型而得到的。

基于这个原因,他们将这个模型称为ELMo-Embeddings from Language Models,即由语言模型得到的词向量。

ELMo模型的词表征是很深层次的,因为词表征结果是双向语言模型(biLM)所有内层的函数。更具体的,对于每个任务,它们学习了基于每个输入词的多层状态函数的线性组合,与仅仅使用lsmt顶层相比,这显著提高了性能。

通过这种组合内部状态的方式使得词表征十分丰富,通过内部评估,他们认为高层次的lstm状态更能捕捉到词义的上下文方面,而低层次的lstm状态更能表现出语法方面。

同时,这些信号都是非常有用的,这允许学习模型在面对每个终端任务时,可以选择最有用的半监督类别。

大量的实验证明ELMo模型在实践上十分有效。文中首先表明了该模型可以轻易的添加到六个不同的并且具有挑战性的自然语言理解问题上,并且在每个问题上都刷新了最高性能。

对于可以直接进行比较的是Cove,CoVe也是一种语境化的词表征技术,它的实现是基于神经机器翻译编码器。

最终,对于ELMo以及CoVe的分析揭露了深度表示模型优于那些仅仅由LSTM顶层派生而来的。

2.

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值