ELMo模型解读

最近学习了2018年的模型ELMo:Deep contextualized word representations,这里作一下笔记和我个人的理解
原论文链接:https://paperswithcode.com/method/elmo

在介绍ELMo之前顺便回顾一下RNN和LSTM,刚好也做个总结笔记

RNN和LSTM

RNN

RNN就是循环神经网络,下面一张图就很清晰了。
当前时刻的输出状态ht依赖于上一时刻的输出状态ht-1和当前时刻的输入xt,具体的公式如下:
ht=tanh(W[ht-1,xt]+b)*
其中[ht-1,xt]表示ht-1和xt的拼接,比如xt为(1,5)的向量,ht-1为(1,10)的向量,那么拼接后的
[ht-1,xt]就为(1,15)的向量。
那么就可以知道W为(10,15 )的权重矩阵,b为(1,10)的向量
循环神经网络的缺点就是长程依赖问题,随着序列的增大,序列前面时刻的信息会不断减弱。另外就是训练时的梯度消失问题。

在这里插入图片描述

LSTM

LSTM是在RNN的基础上发展而来,通过引入一个额外的记忆单元C来记录序列信息,一定程度上解决了长程依赖问题和梯度消失问题。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值