BERT疑惑记录

最新推荐文章于 2023-04-15 23:16:00 发布

Mr_wuliboy

最新推荐文章于 2023-04-15 23:16:00 发布

阅读量367

点赞数

分类专栏：深度学习文章标签： BERT Transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mr_wuliboy/article/details/103275300

版权

深度学习专栏收录该内容

23 篇文章 1 订阅

订阅专栏

1、单个句子的任务，我们拿第一个cls向量，上面接一些全连接层,做一个分类，标注的数据 fine-tuningbert参数也包括全连接的一个参数，为什么选择第一个？

bert任务还是预测这个词，预测的时候会参考其他的词，如eat本身还是吃的语义，直接根据eat去分类，显然是不可以的，cls没有太多其他词的语义，所以它的语义完全来自其他的语义来自整个句子，编码了整个句子的语义，用它做可以，当然也可以得出所有结果进行拼接后，再来进行预测。

2、为什么说BERT使用的是双向Transformer？

这个问题不是很明确答案，但是个人感觉，BERT和openAI发布的GPT一个很大的不同在于预训练方式，BERT是通过上下文来预测mask的词语，GPT则是通过上文来预测mask的词语，这从一方面表明了单向与双向的差别。

3、BERT中的Transformer block与 Transformer区别？

看过BERT源码的应该都很清楚，BERT中的Transformer block的结构如下所示（画的有点丑）：

而并非Attention is all you need 论文中的结构，如下所示：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BERT疑惑记录

1、单个句子的任务，我们拿第一个cls向量，上面接一些全连接层,做一个分类，标注的数据 fine-tuningbert参数也包括全连接的一个参数，为什么选择第一个？bert任务还是预测这个词，预测的时候会参考其他的词，如eat本身还是吃的语义，直接根据eat去分类，显然是不可以的，cls没有太多其他词的语义，所以它的语义完全来自其他的语义来自整个句子，编码了整个句子的语义，用它做可以，当然...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。