从零训练模型:BERT模型【任务:①MLM(掩码语言模型)、②NSP(下一句预测)】

本文介绍了如何从零训练BERT模型,涉及预训练任务MLM(掩码语言模型)和NSP(下一句预测)。通过详细的数据预处理步骤,包括英文维基百科和中文宋词数据的格式化,以及构造NSP和MLM任务数据,展示了BERT模型的训练和微调过程。文章提供了完整的代码示例,并强调了模型在特定语料上训练的重要性。
摘要由CSDN通过智能技术生成

想要继续训练BERT的话首先需要弄懂NSP和MLM这两个预训练任务的原理,然后再根据这两个任务来通过自己的语料从头训练一个BERT模型或者是以开源的模型参数为基础进行追加训练。下面,掌柜就分别从MSL和NSP任务的数据构造、模型实现和网络训练等方面来一一进行介绍。

1 引言

经过前面六篇文章的介绍,我们已经清楚了:

  • BERT的基本原理[1]、
  • 如何从零实现BERT[2]、
  • 如何基于BERT预训练模型来完成文本分类任务[3]、
  • 文本蕴含任务[4]、
  • 问答选择任务(SWAG)[5]
  • 问题回答任务(SQuAD)[6]

算是完成了BERT模型第一部分内容(如何在下游任务中运用预训练BERT)的介绍。

在接下来的这篇文章中,掌柜将开始就BERT模型的第二部分内容,即如何利用Mask LM和NSP这两个任务来训练BERT模型进行介绍。

通常,你既可以通过MLM和NSP任务来从头训练一个BERT模型,当然也可以在开源预训练模型的基础上再次通过MLM和NSP任务来在特定语料中进行追加训练,以使得模型参数更加符合这一场景。

在文章BERT的基本原理[1]中,掌柜已经就MLM和NSP两个任务的原理做了详细的介绍,所以这里就不再赘述。

一句话概括ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值