​一文速览CVPR 2023掩码图像建模领域最新研究进展

本文汇总了CVPR 2023中关于掩码图像建模的最新研究,涉及深度模型的不同层学习、预训练与微调的迁移差异、生成模型与表示学习的融合、知识蒸馏策略以及视频和点云领域的应用。通过这些研究,揭示了在计算机视觉中预训练模型的改进方法和新应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

e9ba18efbcdfbacf6cca59bc8a169c6d.gif

©PaperWeekly 原创 · 作者 | GlobalTrack

18d643c21cb75c584d799df1bda301f7.png

CV领域一般改进

3c8c75c8877fdaea3df1f0157420bad1.png

论文标题:

Masked Image Modeling with Local Multi-Scale Reconstruction

论文链接:

https://arxiv.org/abs/2303.05251

代码链接:

https://github.com/Haoqing-Wang/LocalMIM

本文指出深度模型上层和下层架构重要性是不同的。微调阶段上层可以快速适应下游任务而下层变化较为缓慢。考虑将重建任务同时应用于上层和下层架构,以明确指导。具体地,在预训练阶段,上层和下层分别学习细尺度和粗尺度监督信号。

77196c87f077db91b683af7c76ffb28b.png

c568a935ce3fa068914ecbb228924ff2.png

论文标题:

Integrally Pre-Trained Transformer Pyramid Networks

论文链接:

https://arxiv.org/abs/2211.12735

代码链接:

https://github.com/sunsmarterjie/iTPN

本文指出 MIM 任务预训练的一个关键问题是上有预训练任务和下游微调任务间的迁移差异。下游任务需要分层视觉特征,而基于 MIM 自监督学习的模型一般缺少此类特征。本文给出一种同时训练 backbone 和颈部模块的算法。本文也需要给各阶段颈部模块添加重建损失。这里指导特征图选择为教师模型对应阶段的特征图输出。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值