深度学习：ELMO模型

-柚子皮-

已于 2023-10-24 17:11:26 修改

阅读量67

点赞数

分类专栏：深度学习DeepLearning 文章标签：深度学习人工智能

于 2018-07-27 11:14:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pipisorry/article/details/81234005

版权

深度学习DeepLearning 专栏收录该内容

37 篇文章 33 订阅

订阅专栏

ELMO模型

ELMo: Deep contextualized word representations, AI2 & University of Washington, Jun. 2017. NAACL.https://arxiv.org/pdf/1802.05365.pdf

ELMo的整体图。第一使用了多层LSTM，第二增加了后向语言模型（backward LM）。

Note:

1 输入是一个句子的embedding E1~En，输出是T1～Tn（分别对应其上下文）。

2 从图中箭头可以看出，目标T1生成的逻辑是，第1个lstm encoding的第1个输出（即E1对应）+ 第2个lstm encoding的最后一个输出（即En->E1）[即只使用了自己和下文]；目标T2生成的逻辑是，第1个lstm encoding的第1-2个输出（即E1->E1对应）+ 第2个lstm encoding的倒数第2个输出（即En->E2）[即使用了上下文]。

优化的目标：最大化对数前向和后向的似然概率：

[NAACL2018:高级词向量(ELMo)详解(超详细) 经典]

[ELMo原理解析及简单上手使用]

缺陷

ELMO模型在语言模型这个任务上同bert一样使用了双向的方法，但是它是通过双向的两层RNN结构对两个方向进行建模，两个方向的loss计算相互独立。

而BERT的作者指出这种两个方向相互独立或只有单层的双向编码可能没有发挥最好的效果，我们可能不仅需要双向编码，还应该要加深网络的层数。

但加深双向编码网络却会引入一个问题，导致模型最终可以间接地“窥探”到需要预测的词，“窥探”的过程可以用下面的图来表示：

从图中可以看到经过两层的双向操作，每个位置上的输出就已经带有了原本这个位置上的词的信息了。这样的“窥探”会导致模型预测词的任务变得失去意义，因为模型已经看到每个位置上是什么词了。

ref: NAACL2018:高级词向量(ELMo)详解(超详细) 经典 - 知乎

《Semi-supervised sequence tagging with bidirectional language models》.

from:-柚子皮-

ref:

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。