bert

最新推荐文章于 2024-09-08 09:00:00 发布

身体健康,万事如意

最新推荐文章于 2024-09-08 09:00:00 发布

阅读量957

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/qq_30366667/article/details/88761810

版权

BERT是一种预训练模型，采用双向Transformer的Encoder，通过Masked Language Model和Next Sentence Prediction捕捉词和句子级别的representation。BERT在NLP任务中表现出色，如序列标注、分类任务和句子关系判断，只需微调就能适应各种任务，但训练收敛较慢。

摘要由CSDN通过智能技术生成

bert

创建日期星期六 23 三月 2019

从模型的创新角度看一般，创新不大，但是实验的效果太好了，基本刷新了很多NLP的任务的最好性能，另外一点是BERT具备广泛的通用性，就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效果。

与最近的语言表征模型不同，BERT基于所有层中的左、右语境进行联合调整，来预训练深层双向表征。只需要增加一个输出层，就可以对预训练的BERT表征进行微调，就能够为更多的任务创建当前的最优模型

1、预训练模型
BERT是一个预训练的模型，那么什么是预训练呢？举例子进行简单的介绍
假设已有A训练集，先用A对网络进行预训练，在A任务上学会网络参数，然后保存以备后用，当来一个新的任务B，采取相同的网络结构，网络参数初始化的时候可以加载A学习好的参数，其他的高层参数随机初始化，之后用B任务的训练数据来训练网络，当加载的参数保持不变时，称为"frozen"，当加载的参数随着B任务的训练进行不断的改变，称为“fine-tuning”，即更好地把参数进行调整使得更适合当前的B任务

优点：当任务B的训练数据较少时，很难很好的训练网络，但是获得了A训练的参数，会比仅仅使用B训练的参数更优

Task #1: Masked LM
为了训练双向特征，这里采用了Masked Language Model的预训练方法，随机mask句子中的部分token，然后训练模型来预测被去掉的token。

具体操作是：

随机mask语料中15%的token，然后将masked token 位置输出的final hidden vectors送入softmax，来预测masked token。

这里也有一个小trick，如果都用标记[MASK]代替token会影响模型，所以在随机mask的时候采用以下策略：

1）80%的单词用[MASK]token来代替

my dog is hairy → my dog is [MASK]
2）10%单词用任意的词来进行代替

my dog is hairy → my dog is apple

3）10%单词不变

my dog is hairy → my dog is hairy

Task 2#: Next Sentence Prediction
为了让模型捕捉两个句子的联系，这里增加了Next Sentence Prediction的预训练方法，即给出两个句子A和B，B有一半的可能性是A的下一句话，训练模型来预测B是不是A的下一句话
Input = [CLS] the man went to [MASK] store [SEP]
penguin [MASK] are flight ## less birds [SEP]
Label = NotNext
he bought a gallon [MASK] milk [SEP]
Label = IsNext
Input = [CLS] the man [MASK] to the store [SEP]
训练模型，使模型具备理解长序列上下文的联系的能力

2、BERT模型
BERT：全称是Bidirectional Encoder Representation from Transformers，即双向Transformer的Encoder，BERT的模型架构基于多层双向转换解码，因为decoder是不能获要预测的信息的，模型的主要创新点都在pre-traing方法上，即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation

其中“双向”表示模型在处理某一个词时，它能同时利用前面的词和后面的词两部分信息，这种“双向”的来源在于BERT与传统语言模型不同，它不是在给你大牛股所有前面词的条件下预测最可能的当前词，而是随机遮掩一些词，并利用所有没被遮掩的词进行预测

下图展示了三种预训练模型，其中 BER