ELMo模型解读

最新推荐文章于 2022-12-01 20:28:19 发布

lppfwl

最新推荐文章于 2022-12-01 20:28:19 发布

阅读量2k

点赞数

分类专栏： NLP 文章标签： nlp 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lppfwl/article/details/121224194

版权

本文介绍了ELMo模型，通过预训练获取contextualized word embeddings，解决多义词问题。它使用正向和反向LSTM，结合上下文信息，通过在下游任务中微调权重以适应不同语境。ELMo在多个NLP任务中展现出优越性能。

摘要由CSDN通过智能技术生成

最近学习了2018年的模型ELMo：Deep contextualized word representations，这里作一下笔记和我个人的理解
原论文链接：https://paperswithcode.com/method/elmo

在介绍ELMo之前顺便回顾一下RNN和LSTM，刚好也做个总结笔记

RNN和LSTM

RNN

RNN就是循环神经网络，下面一张图就很清晰了。
当前时刻的输出状态ht依赖于上一时刻的输出状态ht-1和当前时刻的输入xt，具体的公式如下：
ht=tanh(W[ht-1,xt]+b)*
其中[ht-1,xt]表示ht-1和xt的拼接，比如xt为(1,5)的向量，ht-1为(1,10)的向量，那么拼接后的
[ht-1,xt]就为(1,15)的向量。
那么就可以知道W为(10,15 )的权重矩阵，b为(1,10)的向量
循环神经网络的缺点就是长程依赖问题，随着序列的增大，序列前面时刻的信息会不断减弱。另外就是训练时的梯度消失问题。

在这里插入图片描述

LSTM

LSTM是在RNN的基础上发展而来，通过引入一个额外的记忆单元C来记录序列信息，一定程度上解决了长程依赖问题和梯度消失问题。

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
ELMo模型解读

最近学习了2018年的模型ELMo：Deep contextualized word representations，这里作一下笔记和我个人的理解原论文链接：https://paperswithcode.com/method/elmo在介绍ELMo之前顺便回顾一下RNN和LSTM，刚好也做个总结笔记RNN和LSTMRNNRNN就是循环神经网络，下面一张图就很清晰了。当前时刻的输出状态ht依赖于上一时刻的输出状态ht-1和当前时刻的输入xt，具体的公式如下：ht=tanh(W[ht-1,xt]+
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。