检索模型预训练方法：RetroMAE

最新推荐文章于 2025-05-24 14:25:39 发布

choose_c

最新推荐文章于 2025-05-24 14:25:39 发布

阅读量918

点赞数 5

分类专栏：文本表示文章标签：深度学习 RAG

本文链接：https://blog.csdn.net/choose_c/article/details/139275963

版权

文本表示专栏收录该内容

13 篇文章

订阅专栏

论文title：https://arxiv.org/pdf/2205.12035RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder
论文链接：https://arxiv.org/pdf/2205.12035

摘要

1.一种新的MAE工作流，编码器和解器输入进行了不同的掩码。编码器编码的句子向量和解码器的掩码输入通过语言模型进行重构问句。
2.非对称的模型结构，编码器拥有像BERT一样全尺寸的transformer，解码器只有一层的transformer。
3.非对称的掩码比例，编码器：15%-30%，解码器：50%-70%。

retroMAE这样设计的原因：

1.auto-encoding对于编码质量的要求更高，传统的自回归更关注前缀，传统的MLM只掩盖一小部(15%)的输入。retroMAE掩盖了更多的输入用于解码，因此重构不仅依赖解码器的输入，更加取决于句子嵌入，所以它迫使编码器捕捉更深层次的句子语义。
2.保证了训练信号来自于大多数的句子输入。另外解码器只有一层transformer，所以使用了双流注意力和特定位置注意掩码的增强解码。这样所有token都被用于了重建。