Autoencoding/BERT在词表征中的优势和劣势

词表征:使用一些特征对单词进行分类,使含义相似的词语具有相似的词向量。
在这里插入图片描述

优点:它能够获得上下文的双向特征表示(BERT最大的亮点),同时它可以更自然地整合到双向语言模型中。
Advantages: It is able to obtain context-sensitive two-way feature representation (The biggest highlight of BERT)and at the same time it can be more naturally integrated into the two way language model.

缺点:在训练输入处引入[mask]标签会导致预训练阶段和微调阶段的不一致。预测词之间的关联性没有被考虑。
Disadvantages: The introduction of mask tags at the training input leads to inconsistencies between the pretraining stage and the fine-tuning stage. The correlation between the predicted word is not considered.

BERT: BERT采用了Transformer Encoder block进行连接, 是一个典型的双向编码模型。

在这里插入图片描述

BERT 的特点:a 引入Masked LM(带mask的语言模型训练)

  • a.1 在原始训练文本中,随机的抽取15%的token作为即将参与mask的对象。
  • a.2 在这些被选中的token中,数据⽣生成器器并不不是把他们全部变成[MASK],⽽而是有下列列3个选择:
  • a.2.1 在80%的概率下,用[MASK]标记替换该token, 比如my dog is hairy -> my dog is [MASK]
  • a.2.2 在10%的概率下, ⽤⼀个随机的单词替换该token, 比如my dog is hairy -> my dog is apple
  • a.2.3 在10%的概率下, 保持该token不变, 比如my dog is hairy -> my dog is hairy
  • b 引入Next Sentence Prediction (下⼀句话的预测任务)
  • b.1 目的是为了服务问答,推理,句⼦主题关系等NLP任务。
  • b.2 所有的参与任务训练的语句都被选中参加。
  • ·50%的B是原始⽂本中实际跟随A的下⼀句话。(标记为IsNext,代表正样本)
  • ·50%的B是原始⽂本中随机抽取的⼀句话。(标记为NotNext,代表负样本)
  • b.3 在该任务中,Bert模型可以在测试集上取得97-98%的准确率。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值