Swin Transformer、ViT作者等共话:好的基础模型是CV 研究者的朴素追求

在2022年智源大会的「视觉模型」论坛上,Swin Transformer、ViT、HRNet等模型的作者探讨了视觉基础模型的最新研究。曹越介绍了自监督预训练的图像掩码预测方法,王云鹤分享了底层视觉大模型的压缩策略,翟晓华提出了结合局部和全局线索的Conformer模型,叶齐祥展示了耦合卷积和Transformer的HiViT模型。专家们讨论了视觉大模型的重要性,以及Transformer在视觉表征学习中的角色。
摘要由CSDN通过智能技术生成

71812543396b8d63a3bb35e493e5b018.png

2021-2022 年,随着 Transformer 被引入计算机视觉领域,视觉基础模型研发迎来了又一个新的高潮。一时间,基于视觉 Transformer 的骨干模型设计、自监督学习、模型扩展、下游应用等研究井喷式爆发。在 2022 年 6 月 1 日的智源大会「视觉模型」专题论坛中,Swin Transformer 作者曹越、ViT 作者翟晓华、HRNet 作者王井东、华为王云鹤以及中国科学院大学叶齐祥等共聚一堂,针对视觉模型的发展展开了精彩的演讲和激烈的讨论。

整理:熊宇轩、张虎

论坛专家名单:

曹越 | 微软亚洲研究院视觉计算组主管研究员

王云鹤 | 华为算法应用部部长

翟晓华 | 瑞士苏黎世谷歌大脑团队主管研究员

叶齐祥 | 中国科学院大学长聘教授,鹏城国家实验室研究员

王井东 | 百度计算机视觉首席科学家

自监督预训练之图像掩码预测:方法、机理与数据可扩展性

曹越 | 微软亚洲研究院视觉计算组主管研究员

【研究背景及意义】

Yann LeCun的“蛋糕理论”中将强化学习比作蛋糕上的樱桃,监督学习比作糖霜,而自监督学习比作是蛋糕坯子,强调了自监督学习的基石作用。自监督学习无需人为的数据标注,从而可以利用近乎无限的数据进行学习。

a5f7e830e6026b491c5b80994933281f.png

2018年,BERT 的出现将自然语言处理领域的自监督预训练推向了顶峰。但如何有效地使用自监督学习进行视觉预训练仍有待探索。在报告中曹越主要介绍了其研究组在近一年时间中在视觉自监督预训练方向的探索,主要回答了如下三个问题:

(1)是否存在一种简单有效的掩码图像建模(Masked Image Modeling,MIM)框架? 

(2)如何理解 MIM 框架在自监督学习预训练中的工作机理?

(3)MIM能否获益于大规模数据集?

【研究方法】 

aa9a14e550560e0ae51e4f56b1f38be7.png

1. 在方法层面:其团队提出了一种简单的MIM框架,发现在MIM预训练中使用:简单的随机掩码匹配较大的掩码块大小、一层线性预测头、直接对像素进行回归作为预测目标即可在广泛的主干网络(ViT, Swin, ResNet)和下游任务(ImageNet分类,COCO目标检测,ADE20K语义分割)中取得当时最好的性能。

2. 在工作机理层面:其团队分别从可视化和实验对比的角度来理解 MIM 的工作原理。从可视化中,发现MIM方法给模型带来了一些局部性归纳偏置,随着层数的加深,有监督模型的所有注意力头都关注到全局区域,而MIM模型一直都有部分头关注局部而其他关注全局,也给注意力头带来了多样性。从实验中,发现MIM对于弱语义的下游任务,比如姿态估计、深度估计、目标跟踪等任务表现出色,无需特殊设计,使用标准的SwinV2和MIM预训练即可在这三类任务的重要数据集中取得当前最好的性能。

3. 在数据可扩展性层面:其团队使用了5种不同大小的 Swin Transformer和5种不同大小的图像数据集来探索MIM预训练在不同训练轮数下的数据可扩展性。实验结果表明:随着模型大小和训练轮数的增加,MIM训练所需要的数据量也随之增加,当数据量充足时,性能可以稳步提升;在数据量不足时依然会出现过拟合的情况,使用更大的模型和更长的轮数时性能几乎持平或变差。由此,验证损失可以作为MIM模型预训练好坏的关键指标,和三种下游任务的性能也呈正相关关系。

【总结及展望】

曹越研究员从三个角度介绍了其研究组在自监督预训练领域的一些进展。首先从方法层面提出了一种简化的MIM框架,然后利用注意力可视化图和广泛任务上的实验对比来理解MIM的内在工作机理,最后展示了数据可扩展性的研究。由于掩码预测方法的通用性,他也希望在这个方面的探索可以帮助CV和NLP搭建一个更好的桥梁。

底层视觉大模型以及大模型的压缩

王云鹤 | 华为算法应用部部长

【研究背景及意义】

视觉Transformer的研究和演进对整个深度学习领域意义重大,基于大规模的数据集和大规模的模型可学习参数已经突破了现有深度模型精度的瓶颈。如果基于Transformer的模型在参数大小和精度上能达到很好的平衡,对于工业界来说则意义深远,既可以统一模型架构,也可以简化硬件上的算子设计。设计统一的大模型,解决更直接的底层视觉任务,并将其部署于终端设备上有重大的使用价值。

【研究方法】

100fbb638f3acecceefdd1822beb7d80.png

王云鹤研究员团队结合机器翻译的思想,提出了首个将底层视觉的各个任务统一起来的Transformer预训练大模型(IPT)。并且为了有效地将大规模的深度神经网络算法应用在端侧设备上,降低了使用人工智能解决实际问题的成本。王云鹤团队探索设计了一些针对视觉大模型进行压缩的新策略。

在设计底层视觉大模型的过程中,王云鹤博士主要总结了以下三点:

1. 在数据处理过程中,由于Transformer通常需要大规模数据进行训练,因此王云鹤团队在设计底层视觉Trans

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值