BERT详解:bert文本分类怎么做的

甜辣uu

已于 2022-04-22 16:17:34 修改

阅读量4.5k

点赞数 1

分类专栏：自然语言处理-nlp-NLP python从入门到精通深度学习神经网络实战100例文章标签： python bert 人工智能 nlp pytorch

于 2021-11-30 14:09:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38735017/article/details/121631410

版权

python从入门到精通同时被 3 个专栏收录

166 篇文章 154 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

深度学习神经网络实战100例

109 篇文章 324 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

自然语言处理-nlp-NLP

89 篇文章 81 订阅 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了BERT模型的预训练和微调过程，包括BERT的架构、预训练任务（如Masked Language Modeling）和微调策略。讨论了BERT与Transformer的区别，并解释了BERT中的mask操作及其目的。同时，探讨了BERT在文本分类任务中的应用方法，以及在处理未见过的词汇时的处理方式。

摘要由CSDN通过智能技术生成

bert是怎么进行预训练和微调的？

首先是用海量的数据预训练，数据可以是没有标签，在训练的时候就一个任务：就是随机mask部分字，然后用周围的字预测mask的字。这就是预训练的的过程。

用任务微调的时候。比如接一个文本分类，先加载初始的模型参数，然后根据有标签的数据进行训练计算loss去微调这个模型。适应下游的任务。

bert、bert_wwm、lattice_bert 区别：

bert有12个tranformer encoder block大约1亿参数 100M

bert会把字随机的mask掉，然后用周围的词去预测这个字，那么就是一个类似与word2vec中分类问题，预测这个字的时候是一个交叉熵的形式，用最后的cls向量，做一个多分类，输出每个字的概率然后选择概率最大的字进行选择。

bert输入两句话，然后这个段编码是进行一个第一句话是0 第二句话是1 把两句话区分开。

然后两句话是否匹配的的一个预测。也是对折两句话做了一个二分类：匹配或者不匹配。直接用最后的cls向量做了一个二分类。

假设你输入了一个字在加载预训练模型的时候没有这个字的token ,

了解本专栏

超级会员免费看

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

甜辣uu 谢谢关注再接再厉

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。