下载地址:https://u20150046.ctfile.com/fs/20150046-376633397
作者:Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer
论文摘要
我们提出一种新的深层语境化的词表示形式,它既模拟了词使用的复杂特征(如语法和语义),也模拟了这些用法在不同语言语境中的变化(即,一词多义)。我们的词向量是一个深度双向语言模型(biLM)内部状态的学习函数,该模型是在一个大型文本语料库上预训练的。我们证明,这些表示可以很容易地添加到现有的模型中,并在六个具有挑战性的NLP问题(包括问题回答、文字蕴涵和情感分析)中显著地提升了技术的最先进水平。我们还提供了一项分析,表明暴露预训练网络的深层内部结构是至关重要的,它允许下游模型混合不同类型的半监督信号。
概要总结
艾伦人工智能研究所的团队提出一种新型的深层语境化单词表示——语言模型嵌入(Embeddings from Language Models, ELMo)。在ELMo增强的模型中,每个单词都是基于它所使用的整个上下文向量化的。在现有的NLP系统中加入ELMo可以减少6-20%的相对误差,显著减少训练模型所需的时间,以及显著减少达到基线性能所需的训练数据量。
核心思想
1.以深度双向语言模型(biLM)的内部状态加权和的形式生成词嵌入,该模型在大型文本语料库上预训练。
2.要包含来自所有biLM层的表示,因为不同的层代表不同类型的信息。
3.将ELMo表示建立在字符的基础上,以便网络可以使用形态学线索“理解”训练中未见的词汇表外的token。
最重要的成果
1.将ELMo添加到模型中可以得到state-of-the-art的结果,在问题回答、文字蕴涵、语义角色标记、相关引用解析、命名实体提取和情绪分析等NLP任务中,相对误差降低了6 - 20%。
2.使用ELMo增强模型可以显著减少达到最先进性能所需的更新次数。因此,使用ELMo的语义角色标记(SRL)模型只需要10 epochs就可以超过486 epochs训练后达到的基线最大值。
3.将ELMo引入模型还可以显著减少实现相同性能水平所需的训练数据量。例如,对于SRL任务,ELMo增强模型只需要训练集的1%就可以实现与基线模型相同的性能,而基线模型需要10%的训练数据。
AI社区的评价
1.这篇论文在全球最具影响力的NLP会议之一——NAACL上被评为Outstanding paper。
2.论文提出的ELMo方法被认为是2018年NLP领域最大的突破之一,也是NLP未来几年的重要成果。
未来研究方向
1.通过将ELMos与上下文无关的词嵌入连接起来,将这种方法合并到特定的任务中。
2.将ELMos与输出连接。
可能的应用
1.ELMo显著改善了现有NLP系统的性能,从而增强:
2.聊天机器人的性能,使其能够更好地理解人类和回答问题;
3.对客户的正面和负面评价进行分类;
4.查找相关信息和文件等。