ELMo算法详解

ELMo

ELMo来自于论文《Deep contextualized word representations》,介绍了一种高效的动态词向量。在摘要部分,作者提到词向量主要是用来解决两大问题:

  1. 单词使用的复杂性,例如语法、语义
  2. 不同语境下的单词使用,例如同义词

传统的Word2Vec或者Glove只能解决第一个问题,但是他们本身都是静态的词向量,也就是说每个词的向量化表示是固定的。但是很多词在不同的语境下表达的意思是完全不同的。例如“我去洗手间方便一下”和“你今晚几点方便”这两句话中的“方便”表达的意思显然不同。因此在这种情况下,我们自然希望有一种动态的词向量能够根据语境来表示单词,ELMo所做的就是这件事。另外值得一提的是,EMLo也开创了预训练语言模型的先河。

Model Overview

ELMo主要包含下面几大部分:

  • Token Embedding:对上下文不敏感的词向量(论文中用的是CharCNN)
  • Bidirectional Language Model:对上下文敏感的词向量(论文中用的是BiLSTM)
  • Fit EMLo word representation into downstream NLP tasks

ELMo的主要思想是通过双向的预训练语言模型得到每层的状态表示,然后基于这些状态向量和初始embedding学习一个线性组合作为最终的词向量表示。

BiLM

先来看一下论文中的双向语言模型。语言模型我们比较熟悉,比如N-gram、RNN等都是常见的语言模型。语言模型的训练是基于链式法则,最大化概率乘积:
P ( t 1 , t 2 , … , t N )   =   ∏ k = 1 N p ( t k   ∣   t 1 , t 2 , … , t k − 1 ) P(t_1,t_2,\dots,t_N)\ =\ \prod_{k=1}^N p(t_k\ |\ t_1,t_2,\dots,t_{k-1}) P(t1,t2,,tN) = k=1Np(tk  t1,t2,,tk1)
这是单向的,或者说是正向的语言模型,也就是根据前面的信息预测当前的token。那么反向的就是反过来,根据后面的信息预测当前的,目标函数也就变为了:
P ( t 1 , t 2 , … , t N )   =   ∏ k = 1 N p ( t k   ∣   t k + 1 , t k + 2 , … , t N ) P(t_1,t_2,\dots,t_N)\ =\ \prod_{k=1}^{N} p(t_k\ |\ t_{k+1},t_{k+2},\dots,t_{N}) P(t1,t2,,tN) = k=1Np(tk  tk+1,tk+2,,tN)
因此,一个双向的语言模型要最大化的就是上面两个的似然之和:
∑ k = 1 N ( l o g   p ( t k   ∣   t 1 , t 2 , … , t k − 1 ; Θ x , Θ L S T M → , Θ s )   +      l o g   p ( t k   ∣   t k + 1 , t k + 2 , … , t N ; Θ x , Θ L S T M ← , Θ s ) ) \sum_{k=1}^N (log\ p(t_k\ |\ t_1,t_2,\dots,t_{k-1};\Theta_x,\Theta^{\rightarrow}_{LSTM},\Theta_s)\ +\\ \ \ \ \ log\ p(t_k\ |\ t_{k+1},t_{k+2},\dots,t_{N};\Theta_x,\Theta^{\leftarrow}_{LSTM},\Theta_s)) k=1N(log p(tk  t1,t2,,tk1;Θx,ΘLSTM,Θs) +    log p(tk  tk+1,tk+2,,tN;Θx,ΘLSTM,Θs))
这里 Θ x \Theta_x Θx Θ s \Theta_s Θs分别表示初始词向量的参数和 s o f t m a x softmax softmax层的参数,这两个是全局共享的参数。

论文中所采用的是双向的LSTM,假设我们训练了 L L L层的BiLSTM,那么对于每个词我们就能够得到 2 L + 1 2L+1 2L+1个向量表示:
R k   =   { x k ,   h k , j → ,   h k , j ← ,   …   ∣   j = 1 , 2 , … , L }      =   { h k , j   ∣   j = 0 , 1 , … , L } R_k\ =\ \{x_{k}, \ h^{\rightarrow}_{k,j},\ h^{\leftarrow}_{k,j}, \ \dots\ |\ j=1,2,\dots,L\} \\ \ \ \ \ =\ \{h_{k,j} \ |\ j=0,1,\dots,L\} Rk = {xk, hk,j, hk,j,   j=1,2,,L}    = {hk,j  j=0,1,,L}
其中 h k , 0   =   [ x k , x k ] h_{k,0}\ =\ [x_k,x_k] hk,0 = [xk,xk]

论文中的与训练任务就是最简单的next word prediction,最终其实没有采用很深的网络结构,只是采用了两层LSTM,但是hidden size比较大。

Downstream NLP task

在得到了 R k R_k Rk以后,要得到最后的ELMo向量有两种选择:一种是就用最后一层的隐状态,另一种是用所有层训练一个线性组合。作者对这两种方案进行了对比试验,后面会看到。对于线性组合的方案,我们得到的是:
E L M o k t a s k   =   γ t a s k ∑ j = 1 L s j t a s k h k , j L M ELMo_{k}^{task}\ =\ \gamma^{task}\sum_{j=1}^{L}s^{task}_{j}h^{LM}_{k,j} ELMoktask = γtaskj=1Lsjtaskhk,jLM
其中, s j t a s k s^{task}_j sjtask 表示softmax-normalized weights,标量参数$ \gamma^{task}$ 是缩放因子,允许任务模型缩放整个ELMo向量(allows the task model to scale the entire ELMo vector) γ \gamma γ对于帮助优化过程具有实际意义。通常较小的 γ \gamma γ模型在大多数cases中效果会更好。

然后就可以把这个词向量应用到下游任务当中了,在应用到下游任务的时候,我们可以把ELMo向量与输入结合,也可以和输出结合,当然两个一起效果比较好。

Experiment

作者在很多任务上对ELMo进行了实验,具体有:

  • Question answering:问答系统
  • Textual entailment:文本蕴涵,判断两个文本能否互相推论
  • Semantic role labeling:语义角色标注
  • Coreference resolution:共指消解
  • Named entity extraction:命名实体抽取
  • Sentiment analysis:情感分析

在这里插入图片描述

同时作者做了两组对比试验,分别是:

  • 只用最后一层隐状态和用线性组合对比
  • 对于下游任务,输入与ELMo结合、输出与ELMo结合、都结合三者对比

结果如下:

在这里插入图片描述

在这里插入图片描述

Analysis

  1. 作者发现,比较浅层的BiLSTM layer学习到的大多是语法信息,深层的BiLSTM layer学习到的是语义信息。对于不同的任务,作者也将不同层的权重做了可视化:在这里插入图片描述

  2. 作者发现ELMo在小样本情况下能使得模型效果得到很大提升:在这里插入图片描述

  3. 在损失函数中加入L2正则也能使效果有显著提升

  4. ELMo很好的实现了单词在不同语境下的语义区分,如下图:在这里插入图片描述

Model Detail

这里附一个非常详细的模型描述,包括CharCNN和BiLSTM两部分

在这里插入图片描述

在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值