Elmo.

Elmo动机

以往方法的问题:

  1. 多义词问题:one-hot、word2vec、fastText 为静态方式,即训练完成后,每个词的表达固定。
  2. 单向性问题:one-hot、word2vec、fastText 都是 从左向右 学习,导致该方法 不能 同时考虑 两边信息。

Elmo思想

预训练时,利用语言模型学习一个单词的embedding。(此时没有解决多义词问题)
微调使用时,单词间具有特定上下文,可以根据上下文单词语义调整单词的embedding表示(此时解决了多义词问题)
理解:预训练时,elmo根据语料训练出每个单词的向量表示,训练完成后就固定(即为静态)。在微调使用阶段,elmo根据特定任务的语料进行微调训练,使其学习到新的特征(动态调整),此时解决多义词问题。

Elmo网络结构

在这里插入图片描述

Elmo细节

  1. elmo的BILSTM层数为2层。
  2. elmo为两个BI-LSTM联合学习,形成假性双向结构(对上下文)。
  3. 对于每层LSTM之间增加了残差连接

Elmo问题

  1. 特征提取器选用LSTM,而不是更强的transformer。
  2. 利用两个BILSTM拼接起来的双向融合特征并不是真正意义上的双向。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值