BERT疑惑记录

1、单个句子的任务,我们拿第一个cls向量,上面接一些全连接层,做一个分类,标注的数据 fine-tuningbert参数也包括全连接的一个参数,为什么选择第一个?


bert任务还是预测这个词,预测的时候会参考其他的词,如eat本身还是吃的语义,直接根据eat去分类,显然是不可以的,cls没有太多其他词的语义,所以它的语义完全来自其他的语义 来自整个句子,编码了整个句子的语义,用它做可以,当然也可以得出所有结果进行拼接后,再来进行预测。

2、为什么说BERT使用的是双向Transformer?

这个问题不是很明确答案,但是个人感觉,BERT和openAI发布的GPT一个很大的不同在于预训练方式,BERT是通过上下文来预测mask的词语,GPT则是通过上文来预测mask的词语,这从一方面表明了单向与双向的差别。

3、BERT中的Transformer block与 Transformer区别?

看过BERT源码的应该都很清楚,BERT中的Transformer block的结构如下所示(画的有点丑):

而并非Attention is all you need 论文中的结构,如下所示:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值