想要继续训练BERT的话首先需要弄懂NSP和MLM这两个预训练任务的原理,然后再根据这两个任务来通过自己的语料从头训练一个BERT模型或者是以开源的模型参数为基础进行追加训练。下面,掌柜就分别从MSL和NSP任务的数据构造、模型实现和网络训练等方面来一一进行介绍。
1 引言
经过前面六篇文章的介绍,我们已经清楚了:
- BERT的基本原理[1]、
- 如何从零实现BERT[2]、
- 如何基于BERT预训练模型来完成文本分类任务[3]、
- 文本蕴含任务[4]、
- 问答选择任务(SWAG)[5]
- 问题回答任务(SQuAD)[6]
算是完成了BERT模型第一部分内容(如何在下游任务中运用预训练BERT)的介绍。
在接下来的这篇文章中,掌柜将开始就BERT模型的第二部分内容,即如何利用Mask LM和NSP这两个任务来训练BERT模型进行介绍。
通常,你既可以通过MLM和NSP任务来从头训练一个BERT模型,当然也可以在开源预训练模型的基础上再次通过MLM和NSP任务来在特定语料中进行追加训练,以使得模型参数更加符合这一场景。
在文章BERT的基本原理[1]中,掌柜已经就MLM和NSP两个任务的原理做了详细的介绍,所以这里就不再赘述。
一句话概括ÿ