【深度学习pytorch-98】BERT中MLM 8:1:1 的比例_在训练前,需要按照一定比例(代码中为8:1:1)-CSDN博客

本文链接：https://blog.csdn.net/m0_69378371/article/details/145767070

在 BERT (Bidirectional Encoder Representations from Transformers) 的预训练过程中，使用了 Masked Language Modeling (MLM) 任务来训练模型。这个任务的目标是通过随机遮蔽输入文本中的一些单词，然后让模型预测这些被遮蔽的单词。

BERT 的 MLM 任务中的 8:1:1 比例用于决定如何遮蔽（mask）输入文本中的单词，这个比例是指在每次遮蔽操作中，如何分配以下三种策略：

80% 的单词将被遮蔽为 [MASK]：这些被遮蔽的单词会被替换为 [MASK] 令牌（一个特殊的占位符 token），并且模型的任务是根据上下文来预测这个位置的真实单词。
10% 的单词将被替换为一个随机单词：这些单词被替换为随机的单词（而不是 [MASK]），这有助于模型学习到 非直观的上下文信息，并防止模型只是记住特定的词汇模式。
10% 的单词保持不变：这些单词在训练过程中保持原样，不进行任何更改。这确保了模型在预测时不仅仅是依赖于 [MASK] 令牌，也能学会如何处理 真实的上下文 中的词汇。

为什么选择 8:1:1 的比例？

BERT 选择 8:1:1 的比例是为了 平衡多样性与稳定性。这一策略有以下几个目的：

1. 80% 使用 `[MASK]`

目标：通过使用 [MASK] 令牌，BERT 能够学习到 上下文推理，即根据上下文预测被遮蔽的单词。这是 MLM 任务的核心，模型需要充分理解上下文信息。
原因：大部分的训练目标是让模型预测被遮蔽的单词。使用 [MASK] 有助于模型捕捉到 语法结构和语义关系，让模型更加依赖上下文推理来填充缺失的单词。

2. 10% 使用随机单词

目标：这种方式通过随机替换某些词汇，防止模型过度依赖局部的模式或噪声。这个策略有助于模型学习到 多样性和鲁棒性，并能够处理 不确定性。
原因：如果只使用 [MASK] 替换，模型可能会对特定模式进行过拟合，导致模型只是学会了填充缺失词汇，而不学会处理多变的上下文。通过将部分词汇替换为随机词，BERT 能学到更广泛的语义和词汇相关性，增强模型的 泛化能力。

3. 10% 保持不变

目标：保持一些单词不变是为了确保模型不会完全依赖于 遮蔽机制。这样模型会更好地学习如何处理 真实的上下文，在真实的应用中不会只依赖于被遮蔽的部分。
原因：如果每个词汇都被遮蔽或者随机替换，模型可能会过度依赖 噪声信息，从而影响模型的学习效率和效果。通过保留一些真实单词，BERT 确保了其在 真实环境中的应用能够更加有效和稳定。