©PaperWeekly 原创 · 作者 | GlobalTrack
CV领域一般改进
论文标题:
Masked Image Modeling with Local Multi-Scale Reconstruction
论文链接:
https://arxiv.org/abs/2303.05251
代码链接:
https://github.com/Haoqing-Wang/LocalMIM
本文指出深度模型上层和下层架构重要性是不同的。微调阶段上层可以快速适应下游任务而下层变化较为缓慢。考虑将重建任务同时应用于上层和下层架构,以明确指导。具体地,在预训练阶段,上层和下层分别学习细尺度和粗尺度监督信号。
论文标题:
Integrally Pre-Trained Transformer Pyramid Networks
论文链接:
https://arxiv.org/abs/2211.12735
代码链接:
https://github.com/sunsmarterjie/iTPN
本文指出 MIM 任务预训练的一个关键问题是上有预训练任务和下游微调任务间的迁移差异。下游任务需要分层视觉特征,而基于 MIM 自监督学习的模型一般缺少此类特征。本文给出一种同时训练 backbone 和颈部模块的算法。本文也需要给各阶段颈部模块添加重建损失。这里指导特征图选择为教师模型对应阶段的特征图输出。