Dropout视角下的MLM和MAE：一些新的启发-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/121759220

本文从Dropout的角度分析了BERT的MLM任务预训练与微调的不一致性，并提出修正策略。同时探讨了何凯明的MAE模型，发现其在预训练和微调上具有一致性，暗示了一种防止过拟合的新方法。实验表明，修正MLM的Embedding并未显著提升性能，而DropToken作为一种正则化手段在防止过拟合方面表现参差不齐。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 |苏剑林

单位 |追一科技

研究方向 |NLP、神经网络

大家都知道，BERT 的 MLM（Masked Language Model）任务在预训练和微调时的不一致，也就是预训练出现了 [MASK] 而下游任务微调时没有 [MASK]，是经常被吐槽的问题，很多工作都认为这是影响 BERT 微调性能的重要原因，并针对性地提出了很多改进，如 XL-NET [1]、ELECTRA [2]、MacBERT [3] 等。

本文我们将从 Dropout 的角度来分析 MLM 的这种不一致性，并且提出一种简单的操作来修正这种不一致性。同样的分析还可以用于何凯明最近提出的比较热门的 MAE（Masked Autoencoder）模型，结果是 MAE 相比 MLM 确实具有更好的一致性，由此我们可以引出一种可以能加快训练速度的正则化手段。