ELMo算法详解

最新推荐文章于 2025-03-06 15:10:30 发布

lzk_nus

最新推荐文章于 2025-03-06 15:10:30 发布

阅读量4k

点赞数 5

分类专栏： Deep Learning 文章标签：算法机器学习深度学习

本文链接：https://blog.csdn.net/qq_42791848/article/details/122374703

版权

Deep Learning 专栏收录该内容

43 篇文章

订阅专栏

ELMo

ELMo来自于论文《Deep contextualized word representations》，介绍了一种高效的动态词向量。在摘要部分，作者提到词向量主要是用来解决两大问题：

单词使用的复杂性，例如语法、语义
不同语境下的单词使用，例如同义词

传统的Word2Vec或者Glove只能解决第一个问题，但是他们本身都是静态的词向量，也就是说每个词的向量化表示是固定的。但是很多词在不同的语境下表达的意思是完全不同的。例如“我去洗手间方便一下”和“你今晚几点方便”这两句话中的“方便”表达的意思显然不同。因此在这种情况下，我们自然希望有一种动态的词向量能够根据语境来表示单词，ELMo所做的就是这件事。另外值得一提的是，EMLo也开创了预训练语言模型的先河。

Model Overview

ELMo主要包含下面几大部分：

Token Embedding：对上下文不敏感的词向量（论文中用的是CharCNN）
Bidirectional Language Model：对上下文敏感的词向量（论文中用的是BiLSTM）
Fit EMLo word representation into downstream NLP tasks

ELMo的主要思想是通过双向的预训练语言模型得到每层的状态表示，然后基于这些状态向量和初始embedding学习一个线性组合作为最终的词向量表示。

BiLM

先来看一下论文中的双向语言模型。语言模型我们比较熟悉，比如N-gram、RNN等都是常见的语言模型。语言模型的训练是基于链式法则，最大化概率乘积：
$P(t_1,t_2,\dots,t_N)\ =\ \prod_{k=1}^N p(t_k\ |\ t_1,t_2,\dots,t_{k-1})$
这是单向的，或者说是正向的语言模型，也就是根据前面的信息预测当前的token。那么反向的就是反过来，根据后面的信息预测当前的，目标函数也就变为了：
$P(t_1,t_2,\dots,t_N)\ =\ \prod_{k=1}^{N} p(t_k\ |\ t_{k+1},t_{k+2},\dots,t_{N})$
因此，一个双向的语言模型要最大化的就是上面两个的似然之和：
$\sum_{k=1}^N (log\ p(t_k\ |\ t_1,t_2,\dots,t_{k-1};\Theta_x,\Theta^{\rightarrow}_{LSTM},\Theta_s)\ +\\ \ \ \ \ log\ p(t_k\ |\ t_{k+1},t_{k+2},\dots,t_{N};\Theta_x,\Theta^{\leftarrow}_{LSTM},\Theta_s))$
这里 $\Theta_x$ 和 $\Theta_s$ 分别表示初始词向量的参数和 $s o f t m a x$ 层的参数，这两个是全局共享的参数。

论文中所采用的是双向的LSTM，假设我们训练了 $L$ 层的BiLSTM，那么对于每个词我们就能够得到 $2 L + 1$ 个向量表示：
$R_k\ =\ \{x_{k}, \ h^{\rightarrow}_{k,j},\ h^{\leftarrow}_{k,j}, \ \dots\ |\ j=1,2,\dots,L\} \\ \ \ \ \ =\ \{h_{k,j} \ |\ j=0,1,\dots,L\}$
其中 $h_{k,0}\ =\ [x_k,x_k]$

论文中的与训练任务就是最简单的next word prediction，最终其实没有采用很深的网络结构，只是采用了两层LSTM，但是hidden size比较大。

Downstream NLP task

在得到了 $R_k$ 以后，要得到最后的ELMo向量有两种选择：一种是就用最后一层的隐状态，另一种是用所有层训练一个线性组合。作者对这两种方案进行了对比试验，后面会看到。对于线性组合的方案，我们得到的是：
$ELMo_{k}^{task}\ =\ \gamma^{task}\sum_{j=1}^{L}s^{task}_{j}h^{LM}_{k,j}$
其中， $s^{task}_j$ 表示softmax-normalized weights，标量参数$ \gamma^{task}$ 是缩放因子，允许任务模型缩放整个ELMo向量（allows the task model to scale the entire ELMo vector） $\gamma$ 对于帮助优化过程具有实际意义。通常较小的 $\gamma$ 模型在大多数cases中效果会更好。

然后就可以把这个词向量应用到下游任务当中了，在应用到下游任务的时候，我们可以把ELMo向量与输入结合，也可以和输出结合，当然两个一起效果比较好。

Experiment

作者在很多任务上对ELMo进行了实验，具体有：

Question answering：问答系统
Textual entailment：文本蕴涵，判断两个文本能否互相推论
Semantic role labeling：语义角色标注
Coreference resolution：共指消解
Named entity extraction：命名实体抽取
Sentiment analysis：情感分析

在这里插入图片描述

同时作者做了两组对比试验，分别是：

只用最后一层隐状态和用线性组合对比
对于下游任务，输入与ELMo结合、输出与ELMo结合、都结合三者对比

结果如下：

在这里插入图片描述

Analysis

作者发现，比较浅层的BiLSTM layer学习到的大多是语法信息，深层的BiLSTM layer学习到的是语义信息。对于不同的任务，作者也将不同层的权重做了可视化：
作者发现ELMo在小样本情况下能使得模型效果得到很大提升：
在损失函数中加入L2正则也能使效果有显著提升
ELMo很好的实现了单词在不同语境下的语义区分，如下图：