BERT模型学习02

chy响当当

于 2023-04-03 18:16:54 发布

阅读量354

点赞数

文章标签： bert 学习人工智能

本文链接：https://blog.csdn.net/keepstrivingchy/article/details/129917754

版权

本文详细介绍了BERT模型的整体架构，包括其基于Transformer的encoder设计，以及预训练阶段的MLM和NSP任务。还讨论了如何通过微调适应各种下游任务，如句子分类和序列标注，并提出了提升任务效果的技巧，如动态mask和领域自适应。

摘要由CSDN通过智能技术生成

上一次我们已经从BERT代表四个词的角度宏观去了解了一下BERT，那这一步是不是要开始学习BERT原论文和原码了呢？不，考虑到综合的难道，这次从一个入门方向学习，对各个环节进行一些初步了解先。BERT从零详细解读，看不懂来打我_哔哩哔哩_bilibili

1.BERT1整体模型架构

基础架构来自于Transformer的encoder层：（多个encoder叠在一起，没有decoder）

而transformer里面则是6个encoder作为编码端，6个decoder作为解码端：

下面来关注BERT的输入部分：

首先上图是transformer的encoder,分两部分，第一个是input embedding：做词的词向量，比如随机初始化或者word2vec(但是BERT最后没有w2vec)，然后是positional encoding：位置编码（用正余弦函数去代表它）。

但是在BERT中的encoder分为了三个部分，token+segment+position embedding：

先看input粉色这一行，分为两种词，第一种是[CLS][SEP]这两个特殊词汇，第二种就是正常词汇（#ing是分词中产生的不用管），[CLS][SEP]的存在是因为BERT模型的预训练任务中有一个叫NSP任务（next Sentence Prediction）,这个任务是处理两个句子之间关系的，所以[SEP]的任务是表示在之前的是一个句子、后面是另一个句子；预训练时[CLS]的输出向量会去接一个二分类器，去做一个二分类任务（约等于实现融合两个句子语义的任务）

但是注意：CLS是一个二分类任务，和编码句子信息的任务有一点区别，并不完全等同

不过苏剑林有篇文章把它应用于白话文的，效果还可以，所以真的还得看人怎么去做。

然后看三个部分：第一个部分：token embedding,就是对input的所有词汇包括正常、特殊词汇，都去做embedding，比如随机初始化；第二部分：segment embedding,因为我们处理两个句子，所以要对两个句子进行区分，前面这个句子cls到sep用0来表示，后面he到sep用1表示；第三部分：position embedding,注意，transformer中用正余弦函数，但是在BERT中我们使用随机初始化并且要模型自己去学习出来（参数训练），比如从下标0到511，让模型自己去把每个位置的embedding确定好