【论文阅读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

1.论文链接

BERT

2.论文主要为了解决什么问题?

主要为了解决对于一个已经train好的神经网络迁移的时候需要改动很多结构的问题

3.模型流程

在这里插入图片描述
输入的时候使用上面这个图的流程,首先对位置进行编码,是非常简单的直接用index进行嵌入就可以了(0,1,2,3…),segment embeddings主要是为了去掉不常用的词,只用词根来表示。token embeddings是对word进行编码,然后将这三个embedding加起来。


论文在微调的时候,需要看到context,作者提出来了一个想法:就是每次80%的时间需要猜测这个单词,10%的时间需要代替这个单词,10%的时间保持这个单词不变。这样就能让这个网络既有预测能力,又看到了这个单词。

4.论文创新点

论文解除了GPT的单向限制(只能从左边看),同时他引入了既能看到单词的方法,又能进行猜测

5.本论文收到了哪些论文启发?

论文基于GPT和ELMO

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值