【深度学习pytorch-98】BERT中MLM 8:1:1 的比例

在 BERT (Bidirectional Encoder Representations from Transformers) 的预训练过程中,使用了 Masked Language Modeling (MLM) 任务来训练模型。这个任务的目标是通过随机遮蔽输入文本中的一些单词,然后让模型预测这些被遮蔽的单词。

BERT 的 MLM 任务中的 8:1:1 比例用于决定如何遮蔽(mask)输入文本中的单词,这个比例是指在每次遮蔽操作中,如何分配以下三种策略:

  1. 80% 的单词将被遮蔽为 [MASK]:这些被遮蔽的单词会被替换为 [MASK] 令牌(一个特殊的占位符 token),并且模型的任务是根据上下文来预测这个位置的真实单词。
  2. 10% 的单词将被替换为一个随机单词:这些单词被替换为随机的单词(而不是 [MASK]),这有助于模型学习到 非直观的上下文信息,并防止模型只是记住特定的词汇模式。
  3. 10% 的单词保持不变:这些单词在训练过程中保持原样,不进行任何更改。这确保了模型在预测时不仅仅是依赖于 [MASK] 令牌,也能学会如何处理 真实的上下文 中的词汇。

为什么选择 8:1:1 的比例?

BERT 选择 8:1:1 的比例是为了 平衡多样性与稳定性。这一策略有以下几个目的:

1. 80% 使用 [MASK]
  • 目标:通过使用 [MASK] 令牌,BERT 能够学习到 上下文推理,即根据上下文预测被遮蔽的单词。这是 MLM 任务的核心,模型需要充分理解上下文信息。
  • 原因:大部分的训练目标是让模型预测被遮蔽的单词。使用 [MASK] 有助于模型捕捉到 语法结构和语义关系,让模型更加依赖上下文推理来填充缺失的单词。
2. 10% 使用随机单词
  • 目标:这种方式通过随机替换某些词汇,防止模型过度依赖局部的模式或噪声。这个策略有助于模型学习到 多样性和鲁棒性,并能够处理 不确定性
  • 原因:如果只使用 [MASK] 替换,模型可能会对特定模式进行过拟合,导致模型只是学会了填充缺失词汇,而不学会处理多变的上下文。通过将部分词汇替换为随机词,BERT 能学到更广泛的语义和词汇相关性,增强模型的 泛化能力
3. 10% 保持不变
  • 目标:保持一些单词不变是为了确保模型不会完全依赖于 遮蔽机制。这样模型会更好地学习如何处理 真实的上下文,在真实的应用中不会只依赖于被遮蔽的部分。
  • 原因:如果每个词汇都被遮蔽或者随机替换,模型可能会过度依赖 噪声信息,从而影响模型的学习效率和效果。通过保留一些真实单词,BERT 确保了其在 真实环境中的应用能够更加有效和稳定。

总结:8:1:1 的比例作用

  • 80% [MASK]:主要用于模型的 核心学习目标,即学习如何推理和填充缺失的单词。
  • 10% 随机单词:帮助模型 防止过拟合,增加模型的 多样性和鲁棒性,使得模型不会过度依赖于 [MASK]v
  • 10% 不变:帮助模型处理 真实的上下文,避免模型仅依赖于被遮蔽的单词进行预测,增强模型的 真实语境理解能力

这种策略让 BERT 模型可以有效地进行 语言建模,并且在 微调 时具备强大的 上下文理解能力,在多种下游任务中表现出色。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值