BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

最新推荐文章于 2024-06-27 06:44:42 发布

小妖精Fsky

最新推荐文章于 2024-06-27 06:44:42 发布

阅读量583

点赞数 1

分类专栏： PaperNotes 文章标签： BERT

本文链接：https://blog.csdn.net/appleml/article/details/83864558

版权

PaperNotes 专栏收录该内容

77 篇文章 0 订阅

订阅专栏

为什么采用’Masked language Model’ ?
该模型不仅双向编码，而且加深了网络的层数。但加深双向编码网络却会引入一个问题，导致模型最终可以间接地“窥探”到需要预测的词。这个“窥探”的过程可以用下面的图来表示：

在这里插入图片描述给个更能说明问题的图吧

从图中可以看到经过两层的双向操作，每个位置上的输出就已经带有了原本这个位置上的词的信息了。这样的“窥探”会导致模型预测词的任务变得失去意义，因为模型已经看到每个位置上是什么词了。
为了解决这个问题，我们可以从预训练的目标入手。我们想要的其实是让模型学会某个词适合出现在怎样的上下文语境当中；反过来说，如果给定了某个上下文语境，我们希望模型能够知道这个地方适合填入怎样的词。从这一点出发，其实我们可以直接去掉这个词，只让模型看上下文，然后来预测这个词。但这样做会丢掉这个词在文本中的位置信息，那么还有一种方式是在这个词的位置上随机地输入某一个词，但如果每次都随机输入可能会让模型难以收敛。BERT的作者提出了采用MaskLM的方式来训练语言模型
随机屏蔽部分输入token, 然后只预测那些被屏蔽的token, 这一过程就是masked LM
虽然这确实能让团队获得双向预训练模型，但这种方法有两个缺点。首先，预训练和finetuning之间不匹配，因为在finetuning期间从未看到[MASK]token。为了解决这个问题，团队并不总是用实际的[MASK]token替换被“masked”的词汇。相反，训练数据生成器随机选择15％的token。例如在这个句子“my dog is hairy”中，它选择的token是“hairy”。然后，执行以下过程：
数据生成器将执行以下操作，而不是始终用[MASK]替换所选单词：
80％的时间：用[MASK]标记替换单词，例如，my dog is hairy → my dog is [MASK]
10％的时间：用一个随机的单词替换该单词，例如，my dog is hairy → my dog is apple
10％的时间：保持单词不变，例如，my dog is hairy → my dog is hairy. 这样做的目的是将表示偏向于实际观察到的单词。

为什么预训练时加入了 Next Sentence Prediction任务？？怎么设置的？？
引入这个任务可以更好地让模型学到连续的文本片段之间的关系
训练的时候输入模型的第二个片段会以50%的概率从全部文本中随机选，剩下50%的概率选取第一个片段的后续文本。

参考文献：
https://baijiahao.baidu.com/s?id=1614828439463695390&wfr=spider&for=pc
https://blog.csdn.net/qq_39521554/article/details/83062188
非常好的原理介绍，代码使用，下游任务实战博客：
https://www.jianshu.com/p/109505d2947a

https://www.cnblogs.com/rucwxb/p/10277217.html