在 BERT (Bidirectional Encoder Representations from Transformers) 的预训练过程中,使用了 Masked Language Modeling (MLM) 任务来训练模型。这个任务的目标是通过随机遮蔽输入文本中的一些单词,然后让模型预测这些被遮蔽的单词。
BERT 的 MLM 任务中的 8:1:1 比例用于决定如何遮蔽(mask)输入文本中的单词,这个比例是指在每次遮蔽操作中,如何分配以下三种策略:
- 80% 的单词将被遮蔽为 [MASK]:这些被遮蔽的单词会被替换为
[MASK]
令牌(一个特殊的占位符 token),并且模型的任务是根据上下文来预测这个位置的真实单词。 - 10% 的单词将被替换为一个随机单词:这些单词被替换为随机的单词(而不是
[MASK]
),这有助于模型学习到 非直观的上下文信息,并防止模型只是记住特定的词汇模式。 - 10% 的单词保持不变:这些单词在训练过程中保持原样,不进行任何更改。这确保了模型在预测时不仅仅是依赖于
[MASK]
令牌,也能学会如何处理 真实的上下文 中的词汇。
为什么选择 8:1:1 的比例?
BERT 选择 8:1:1 的比例是为了 平衡多样性与稳定性。这一策略有以下几个目的:
1. 80% 使用 [MASK]
- 目标:通过使用
[MASK]
令牌,BERT 能够学习到 上下文推理,即根据上下文预测被遮蔽的单词。这是 MLM 任务的核心,模型需要充分理解上下文信息。 - 原因:大部分的训练目标是让模型预测被遮蔽的单词。使用
[MASK]
有助于模型捕捉到 语法结构和语义关系,让模型更加依赖上下文推理来填充缺失的单词。
2. 10% 使用随机单词
- 目标:这种方式通过随机替换某些词汇,防止模型过度依赖局部的模式或噪声。这个策略有助于模型学习到 多样性和鲁棒性,并能够处理 不确定性。
- 原因:如果只使用
[MASK]
替换,模型可能会对特定模式进行过拟合,导致模型只是学会了填充缺失词汇,而不学会处理多变的上下文。通过将部分词汇替换为随机词,BERT 能学到更广泛的语义和词汇相关性,增强模型的 泛化能力。
3. 10% 保持不变
- 目标:保持一些单词不变是为了确保模型不会完全依赖于 遮蔽机制。这样模型会更好地学习如何处理 真实的上下文,在真实的应用中不会只依赖于被遮蔽的部分。
- 原因:如果每个词汇都被遮蔽或者随机替换,模型可能会过度依赖 噪声信息,从而影响模型的学习效率和效果。通过保留一些真实单词,BERT 确保了其在 真实环境中的应用能够更加有效和稳定。
总结:8:1:1 的比例作用
- 80% [MASK]:主要用于模型的 核心学习目标,即学习如何推理和填充缺失的单词。
- 10% 随机单词:帮助模型 防止过拟合,增加模型的 多样性和鲁棒性,使得模型不会过度依赖于
[MASK]
v - 10% 不变:帮助模型处理 真实的上下文,避免模型仅依赖于被遮蔽的单词进行预测,增强模型的 真实语境理解能力。
这种策略让 BERT 模型可以有效地进行 语言建模,并且在 微调 时具备强大的 上下文理解能力,在多种下游任务中表现出色。