ELMo模型

最新推荐文章于 2024-05-25 09:37:18 发布

sunghosts

最新推荐文章于 2024-05-25 09:37:18 发布

阅读量289

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/sunghosts/article/details/116023641

版权

NLP 专栏收录该内容

37 篇文章 4 订阅

订阅专栏

论文地址：
https://arxiv.org/abs/1802.05365

前言

在之前2013年的word2vec及2014年的GloVe的工作中，每个词对应一个vector，对于多义词无能为力。ELMo的工作对于此，提出了一个较好的解决方案。不同于以往的一个词对应一个向量，是固定的。在ELMo世界里，预训练好的模型不再只是向量对应关系，而是一个训练好的模型。使用时，将一句话或一段话输入模型，模型会根据上线文来推断每个词对应的词向量。这样做之后明显的好处之一就是对于多义词，可以结合前后语境对多义词进行理解。比如appele，可以根据前后文语境理解为公司或水果。

ELMO的本质思想是：事先用语言模型在一个大的语料库上学习好词的word embedding，但此时的多义词仍然无法区分，不过没关系，我们接着用我们的训练数据（去除标签）来fine-tuning 预训练好的ELMO 模型。作者将这种称为domain transfer。这样利用我们训练数据的上下文信息就可以获得词在当前语境下的word embedding。

模型结构

ELMO 基于语言模型的，确切的来说是一个 Bidirectional language models，也是一个 Bidirectional LSTM结构。我们要做的是给定一个含有N个tokens的序列：

${t_1, t_2, ..., t_N}$

其前向表示为：

$p(t_1, t_2...t_N)= \prod^N_{k=1} p(t_k|t_1, t_2...t_{k-1})$

反向表示为：

$p(t_1, t_2...t_N)= \prod^N_{k=1} p(t_k|t_{k+1}, t_{k+2}...t_N)$

从上面的联合概率来看是一个典型的语言模型，前向利用上文来预测下文，后向利用下文来预测上文。假设输入的token是 $x_k^{LM}$ ，在每一个位置 k ，每一层LSTM 上都输出相应的context-dependent的表征 $\overrightarrow{h}_{k, j}^{LM}$ 。这里 $j = 1, 2, . . ., L$ ， L表示LSTM的层数。顶层的LSTM 输出 $\overrightarrow{h}_{k, L}^{LM}$ ，通过softmax层来预测下一个 $token_{k+1}$ 。

对数似然函数表示如下：

$\sum^N_{k=1}(log p(t_k|t_1, t_2...t_{k-1};\Theta_x, \overrightarrow{\Theta}_{LSTM},\Theta_s) + log p(t_k|t_{k+1}, t_{k+2}...t_N;\Theta_x, \overleftarrow{\Theta}_{LSTM},\Theta_s))$