从零训练模型：BERT模型【任务：①MLM（掩码语言模型）、②NSP（下一句预测）】

u013250861

已于 2023-03-26 20:41:04 修改

阅读量1.1k

点赞数

分类专栏： LLM 文章标签： bert 深度学习机器学习

于 2023-03-26 19:42:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/129783284

版权

LLM 专栏收录该内容

108 篇文章 219 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

想要继续训练BERT的话首先需要弄懂NSP和MLM这两个预训练任务的原理，然后再根据这两个任务来通过自己的语料从头训练一个BERT模型或者是以开源的模型参数为基础进行追加训练。下面，掌柜就分别从MSL和NSP任务的数据构造、模型实现和网络训练等方面来一一进行介绍。

1 引言

经过前面六篇文章的介绍，我们已经清楚了：

BERT的基本原理[1]、
如何从零实现BERT[2]、
如何基于BERT预训练模型来完成文本分类任务[3]、
文本蕴含任务[4]、
问答选择任务（SWAG）[5]
问题回答任务（SQuAD）[6]

算是完成了BERT模型第一部分内容（如何在下游任务中运用预训练BERT）的介绍。

在接下来的这篇文章中，掌柜将开始就BERT模型的第二部分内容，即如何利用Mask LM和NSP这两个任务来训练BERT模型进行介绍。

通常，你既可以通过MLM和NSP任务来从头训练一个BERT模型，当然也可以在开源预训练模型的基础上再次通过MLM和NSP任务来在特定语料中进行追加训练，以使得模型参数更加符合这一场景。

在文章BERT的基本原理[1]中，掌柜已经就MLM和NSP两个任务的原理做了详细的介绍，所以这里就不再赘述。

一句话概括，如图1所示MLM就是随机掩盖掉部分Token让模型来预测，而NSP则是同时输入模型两句话让模型判断后一句话是否真的为前一句话的下一句话，最终通过这两个任务来训练BERT中的权重参数。

了解本专栏

超级会员免费看

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
从零训练模型：BERT模型【任务：①MLM（掩码语言模型）、②NSP（下一句预测）】

第27-32行是分别取BERT模型输出的不同部分来分别进行后续的MLM和NSP任务；第33-43行是根据是否有标签输入来返回不同的输出结果，同时需要注意的是第39行返回的是NSP+MLM两个任务的损失和作为整体模型的损失值；第11-12则是用来判断最后分类层中的权重参数是否复用BERT模型Token Embedding中的权重参数，因为MLM任务最后的预测类别就等于Token Embedding中的各个词，所以最后分类层中的权重参数可以复用Token Embedding中的权重参数[11]。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。