#今日论文推荐# MIM方法为什么简单高效？可视化和大规模实验给出了答案

最新推荐文章于 2024-04-27 21:56:52 发布

wwwsxn

最新推荐文章于 2024-04-27 21:56:52 发布

阅读量340

点赞数

分类专栏：深度学习文章标签： transformer 深度学习计算机视觉

原文链接：https://www.aminer.cn/research_report/6296c5097cb68b460fc7465d?download=false

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# MIM方法为什么简单高效？可视化和大规模实验给出了答案

来自清华大学、中科大和微软亚研的研究者找到 MIM 优异性能的关键所在了。
在过去的几年里，「信号掩码建模（Masked Signal Modeling）」成为了一个普遍而有效的自监督预训练任务，即去掉一部分输入信号并试图预测这些被去掉的信号，这个任务被广泛用于自然语言、视觉和语音等各种领域。近期，图像掩码建模（MIM）也被证明是计算机视觉中广泛使用的有监督预训练方法的有力竞争者，基于 MIM 的预训练模型在不同类型和复杂程度的广泛视觉任务上实现了非常高的微调精度。
然而，图像掩码建模有效性的来源缺乏进一步的解释。来自清华大学、中科大和微软亚研的研究者基于这一出发点，探究并解答了几个关键问题。

论文题目：Revealing the Dark Secrets of Masked Image Modeling
详细解读：https://www.aminer.cn/research_report/6296c5097cb68b460fc7465d?download=falsehttps://www.aminer.cn/research_report/6296c5097cb68b460fc7465d?download=false
AMiner链接：https://www.aminer.cn/?f=cs