深度学习迁移模型BERT详解

最新推荐文章于 2024-09-12 22:45:00 发布

AlexInML

最新推荐文章于 2024-09-12 22:45:00 发布

阅读量8.9k

点赞数 3

分类专栏：深度学习文章标签： BERT 自然语言处理 NLP 迁移学习 Transformer

本文链接：https://blog.csdn.net/wangjian1204/article/details/85541348

版权

深度学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

2018年google AI组发表的一篇文章BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding在多个自然语言处理问题上取得了很大的提升。

BERT是一个迁移学习模型，在双向深度网络Transformer （https://arxiv.org/pdf/1706.03762.pdf ）的基础上做多任务学习（MLM和下个句子预测），得到预训练模型，然后在模型的最后添加一层迁移到具体的任务上去。

1、总体架构

BERT总体结构
BERT的结构类似于 OpenAI GPT，主要的区别在于BERT用了Transformer，Transformer的双向self-attention可以同时考虑左右两边的上下文信息，而GPT只用了单词（或字符）左边的上下文信息。
Google团队设计了两个BERT模型，分别是 $BERT_{BASE}$ 和 $BERT_{LARGE}$ 。L：Transformer层数， H：隐单元个数， A：self-attention heads 数量

$BERT_{BASE}$ : L=12, H=768, A=12, 模型大小110M
$BERT_{LARGE}$ : L=24, H=1024, A=16, 模型大小340M

2、模型输入

BERT输入
BERT模型的输入可以是单个句子（例如分类任务）或者句子对（例如QA任务）。如上图输入两个句子“My dog is cute”、“he likes play”，BERT模型构建三个层Token 层、Segment层、Position层，这三个层的值相加作为Transformer的输入。Token层是单词的词向量嵌入；Segment层用来区分单词属于哪个句子，属于第一个句子就用向量 $E_A$ ，属于第二个句子就用向量 $E_B$ 。Position层用来区分单词在序列中的位置，是第几个单词。

序列长度最长512个单词。
[CLS] 起始位置，如果是分类任务，则用这个标志对应的最终输出隐状态做分类；对于非分类任务，没有特殊的作用，可以忽略。
句子对放在同一个序列里，使用 [SEP] 标志分隔，另外还加上 $E_A$ 和 $E_B$ 进行区分。第一个句子的词都加上 $E_A$ 向量，第二个句子的词都加上 $E_B$ 向量。
如果输入是单个句子，则不使用 $E_B$ 向量。

举个例子，假设Token层是1维[0,1]之间的向量，Segment层 $E_A$ 等于10000， $E_B$ 等于20000， $E_0$ 、 $E_1$ 、 $E_2$ 分别是0，10，20，那么最后加起来“my”对应的输入值是1000+10+[0,1]之间某个数，“he”对应的值是20000+60+[0,1]之间某个数，那么在后面的建模中模型可以根据数值来区分这个单词是在第一句还是第二句，是在第几个单词。这就在输入中嵌入了句子和位置信息，当然在实际中， $E_A$ 、 $E_B$ 、 $E_0$ 、 $E_1$ 、 $E_2$ 这些都是通过参数学出来的。

3、预训练任务

（1）MLM：masked language model，在每一轮迭代中随机选择15%的词隐藏，目标是通过它们的上下文来预测这些单词，这些词对应的最后一个隐单元向量后接一个softmax来预测这个词；（通常多层双向网络会让单词间接的看到自己，MLM避免了这个问题）。
需要注意的是：

使用 [MASK] 标志是的预训练和finetune不匹配，因为finetune的时候是不会出现 [MASK] 这个单词的。
解决方法：80%的情况使用 [MASK] 标志，10%的情况随机选择单词单词，10%的情况用原词填入；
每个batch只有15%的单词是需要预测的，所以需要更多的迭代轮数来达到收敛，比left-to-right模型收敛要慢，但效果提升值得付出这样的开销。

（2）Next Sentence Prediction：预测第二个句子是否可以自然的接在第一个句子后面，是个二分类问题，用于理解句子间的关系。
训练语料的构建：每个输入包括A和B两个句子，50% B是A的下一句，50% B不是A的下一句（从语料中随机选出来的B）；
最后的二分类预测准确率大约在97%—98%。

语训练过程是把把这两个任务的损失函数相加，同时学习这两个任务。

4、预训练

语料：BooksCorpus 800M单词，English Wikipedia 2500M单词
选取A和B的组合（50%是连续句子，50%不是连续句子），单词个数不超过512。随机选取15%的单词隐藏。做Multi-task训练。
每个batch 256个序列，需要1000000次迭代；
Adam 0.0001学习率， $\beta_1$ =0.9， $\beta_2$ =0.99，前10000步学习率保持不变，然后线性减小；
所有层dropout=0.1，激活函数gelu
损失函数：MLM 似然 + Next Sentence Prediction 似然