14.8.3 BERT：将ELMo与GPT结合起来

最新推荐文章于 2025-04-30 14:13:08 发布

dingxingdi

最新推荐文章于 2025-04-30 14:13:08 发布

阅读量360

点赞数 4

文章标签： bert gpt 人工智能深度学习自然语言处理

本文链接：https://blog.csdn.net/dingxingdi/article/details/146003638

版权

想想吴恩达讲的CV里面，复用其他网络的结构，只在最后一层加入一个全连接层，对这个全连接层进行微调，也就是如下过程
那么CV里面可以这么用，NLP里面当然也可以这么用，如下
我们只需要调整这个新增加的简单输出层即可
BERT说白了，就是只有编码器的Transformer
他有两个版本，见下blocks就是Transformer的EncoderBlock
现在考虑BERT的输入。一般来说NLP里面的输入都是成对的，比如机器翻译，有一个源句子还有一个目标句子。那么这里如何让输入是两个句子呢？我们只用拼接起来就好了，如下<cls>表示classification，sep表示句子分隔符(separation)；Segment Embeddings就是用来区分词元来自哪个句子的
当然其实我们可以连接三个句子或更长，但是一般不这么做
BERT的任务是构建一个通用的模型，那么在NLP里面，语言模型(看一些词，预测下一个词)显然是最通用的，所以我们将BERT训练成一个语言模型，即带掩码的语言模型。但是Transformer是双向的，而语言模型是单向的，这显然就不能直接训练，于是这就是我们带掩码的原因。<mask>就是我们要填写的词，相当于完形填空，此时就不是预测未来了，所以看双向信息是没问题的
那么书上的<mask>那一段到底是为什么要这么换呢？
在BERT的掩蔽语言模型训练中，“要预测一个掩蔽词元而不使用标签作弊”指的是：
如果直接将被掩盖的词元保留在输入中(例如，输入是原句“this movie is great”，而标签是“great”)，模型可能会直接“偷看”输入中的原词元来预测，而非真正学习上下文关系。这种依赖输入中的原始词元信息的行为称为“标签作弊”。