英文词向量转换_ELMo最好用词向量Deep Contextualized Word Representations

最新推荐文章于 2022-04-11 11:49:04 发布

Tengfei Jiang

最新推荐文章于 2022-04-11 11:49:04 发布

阅读量344

点赞数

文章标签：英文词向量转换

本文链接：https://blog.csdn.net/weixin_36342477/article/details/112582098

版权

ELMo是一种基于深度双向语言模型的词向量表示，它利用上下文信息处理词汇的复杂性和多义性。该模型在多项任务上表现出色，如文本蕴含、问答和命名实体识别等，显著提升了现有state-of-the-art模型的性能。通过适当正则化，ELMo词向量可以灵活应用于监督学习任务，且效果显著。要使用ELMo，可以通过安装allennlp库获取相关工具包。

摘要由CSDN通过智能技术生成

近年来，研究人员通过文本上下文信息分析获得更好的词向量。ELMo是其中的翘楚，在多个任务、多个数据集上都有显著的提升。所以，它是目前最好用的词向量，the-state-of-the-art的方法。这篇文章发表在2018年的NAACL上，outstanding paper award。下面就简单介绍一下这个“神秘”的词向量模型。

ELMo的优势

（1）ELMo能够学习到词汇用法的复杂性，比如语法、语义。

（2）ELMo能够学习不同上下文情况下的词汇多义性。

2. ELMo的模型简介

基于大量文本，ELMo模型是从深层的双向语言模型（deep bidirectional language model）中的内部状态(internal state)学习而来的，而这些词向量很容易加入到QA、文本对齐、文本分类等模型中，后面会展示一下ELMo词向量在各个任务上的表现。

3. 双向语言模型

语言模型就是生成文本的方式、方法，是多个

个词语的序列

的极大似然。前向语言模型就是，已知

，预测下一个词语

的概率，写成公式就是

最近，如《Exploring the limits of language modeling》、《On the state of the art of evaluation in neural language models》和《Regularizing and optimizing lstm language models》等论文中，首先使用character-level的RNN或CNN，计算得到“上下文无关”（context-independent）词向量表示

，然后将此向量feed进入L层的前向LSTM。在每一个位置

，每个LSTM层会输出一个

，其中j=1,....L. 最顶层的LSTM输出为

，然后加上softmax来预测下一个词语

。

既然是双向，后向的语言模型如下，即通过下文预测之前的词语：

双向语言模型（biLM）将前后向语言模型结合起来，最大化前向、后向模型的联合似然函数即可，如下式所示：

其中，

和

分别是context-independent词向量训练时和 soft max层的参数，

和

则是双向语言模型的（前后向语言模型的）参数。