预训练模型系列之ELMo

简介

预训练模型在各种语言任务重十分常见,加上近期的课程涉及到ELMo, GPT 和BERT这三种模型,决定加深理解整理一波,如有理解错误的地方,还望各位网友不吝赐教!本章会涉及到注意力机制的部分。

模型起源:传统词模型假设每个词语对应唯一的向量表示,且为静态向量,无法处理一词多义现象。

ELMo

本质

Embeddings from Language Models1, 双向LSTM

模型

1.首先学习双向LSTM2
参考张家俊老师课件

2.得到词向量表示
在这里插入图片描述
在这里插入图片描述
γ \gamma γ :任务相关权重
s j s_j sj: 每层的softmax输出的权重,
h k , j L M \bm{h}_{k,j}^{LM} hk,jLM: 前向和后向表示的拼接每层都有的一个表示

如何得到词 x j x_j xj的动态表示?
静态表示是有的,动态即用到了上下文信息。输入句子根据最大似然规则训练后,会得到相关隐层参数h(可以理解为一种编码),即为与句子上下文相关的表示,根据不同层的权重加和得到最后的表示。

特点

可以针对不同上下文对某个语段得到不同的表示。在大规模语料上学习的表示效果很好。但是只有两层LSTM,学得的语言规律也比较有限。其结果会因为梯度消失的问题受到进一步的影响,而且无法并行处理。并且,下游监督任务中的微调模型是从头开始学习的, 不共享预训练模型的参数。


  1. Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[J]. arXiv preprint arXiv:1802.05365, 2018. ↩︎

  2. 张家俊老师《预处理模型》PPT ↩︎

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值