2022智源大会议程公开 | 视觉模型论坛

智源社区

于 2022-05-26 17:55:01 发布

阅读量674

点赞数

文章标签：计算机视觉机器学习人工智能深度学习大数据

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/124996084

版权

2022年北京智源大会召开在即，5月31日至6月2日，持续三天，26场由各领域领军学者主导的专题论坛。大会将紧紧围绕这些当前学术领域迫切需要解决的问题，以及产业落地过程中存在的诸多挑战，延续一贯以来的“内行认可”品质口碑，分享真正内行认可的重大成果与真知灼见，献上一场诚意满满的AI盛宴！目前已正式开放大会线上报名渠道。大会将同步向全球线上直播。

北京智源大会倒计时：5 天

在具备大规模、有监督数据的视觉任务上，深度学习为视觉感知任务的解决提供了切实可行的路径。然而，这种严重依赖场景数据并且“一事一议”式的技术路径终究不够优雅，更不具备新任务、新场景的快速扩展能力。学术界和工业界都殷切期待并在努力探索更具通用性的基础视觉模型，及其依托这类模型实现便捷任务扩展的方法。BERT、GPT-3等预训练语言模型的诞生为此提供了可能的参照。然而，视觉毕竟不是自然语言，作为基本视觉单元的像素距离高层语义更远，找不到像“单词”这样离散化、符号化的基本语义单元，因此简单地借鉴预训练语言模型的实现方法恐难以奏效。故而截止目前我们尚未看到令人惊艳的视觉大模型出现。为此，本论坛邀请了视觉智能及相关领域的多名专家分享他们在相关问题上的探索和研究进展，并就下列Panel议题展开深入讨论。

论坛议程

论坛主席 | 主持人

山世光，中科院计算所研究员、博导，现任中科院智能信息处理重点实验室常务副主任

他是IEEE Fellow，基金委优青，国家万人计划领军人才，入选国家百千万人才工程，CCF青年科学家奖获得者，首届腾讯科学探索奖获得者，国务院特殊津贴获得者。他的研究领域为计算机视觉、模式识别和机器学习。已在国内外刊物和学术会议上发表论文350余篇，其中CCF A类论文120余篇，论文被谷歌学术引用28000余次。研究成果获2015年度国家自然科学二等奖，2005年度国家科技进步二等奖，CVPR2008 Best Student Poster Award Runner-up奖。

演讲主题及嘉宾介绍

1、自监督预训练之图像掩码预测：方法、机理与数据可扩展性

议题简介：人工智能领域的发展是一个关于走向统一的故事，2018年BERT的出现使得掩码预测任务作为自监督预训练席卷自然语言处理领域，近期，图像掩码预测任务（Masked Image Modeling, 简称MIM）在视觉学习中被逐渐发掘出潜力，这也使得计算机视觉与自然语言两个领域进一步走向统一。在本次报告中，将从三个方面介绍对于图像掩码预测作为自监督预训练任务的研究：如何设计一种简单而有效的图像掩码预测方法；如何理解图像掩码预测有效性背后的机理；图像掩码预测方法是否具有数据的可扩展性。

曹越，微软亚洲研究院视觉计算组主管研究员

分别于 2014 年和 2019 年在清华大学软件学院获得本科和博士学位，代表作有 Swin Transformer、GCNet 与 VL-BERT 等，曾于 2017 年获微软学者奖学金、2018 年获清华大学特等奖学金与林枫辅导员奖，2021 年获 ICCV 最佳论文奖—马尔奖。至今在 CVPR、ICCV、ICLR、ICML、 NeurIPS 等国际顶级会议和期刊中发表论文 30 余篇，其中有四篇入围 PaperDigest Most Influential Papers 榜单，谷歌引用九千余次。目前主要的研究兴趣是自监督学习、多模态学习和 Transformer 建模。

2、底层视觉大模型以及大模型的压缩

议题简介：Transformer在高层视觉已经取得了非常好的成绩，在底层视觉的应用，包括多任务的预训练机制等还有待进一步研究。此外，大模型在实际落地过程中面临的内存、功耗、时延等问题，也需要相应的技术去优化。本次报告会围绕着两个课题，对业界进展进行分析和讨论。

王云鹤，华为算法应用部部长

在华为诺亚方舟实验室从事人工智能算法的研发和在实际业务中的应用落地。主要的研究领域包含计算机视觉、机器学习、模型压缩、高能效AI计算等。在相关领域发表CCF A类学术论文70余篇，包含NeurIPS、ICML、CVPR、ICCV、IEEE TPAMI等。担任NeurIPS和ICML的领域主席，VALSE的高级领域主席。多项算法落地工业界产品，包含近几年发布的华为手机。主导的加法神经网络项目受到了业界的广泛关注。

3、大规模通用视觉表征学习

议题简介：卷积神经网络（CNN）自2012年以来已成为计算机视觉领域的主流模型。得益于自注意力机制（Self Attention）在自然语言处理领域的成功，不少工作将自注意力机制与CNN结合并取得好结果。2020年，Vision Transformer（ViT）将原始的自注意力模型应用于计算机视觉并取得与CNN相当的效果。近年来ViT已获得大量关注和提高。本报告将围绕ViT视觉模型，探讨ViT-G大模型预训练的方法和技巧，分享实验发现的数据规模、模型规模和计算资源之间的经验规律。并介绍如何通过Locked-image Tuning（LiT）为任意视觉模型训练能够“读”出视觉表征的文本模型，从而支持零训练样本的新任务，识别例如“沙滩上的牛”的不常见类别。

翟晓华，瑞士苏黎世谷歌大脑团队主管研究员

研究方向为表征学习、深度学习、人工智能，于2014年在北京大学获得博士学位。他作为共同一作提出了BiT、ViT、ViT-G、LiT、VTAB等大模型预训练及评测方法。他共同创立并开源了原始用于开发ViT、ViT-G、MLP_Mixer、LiT等工作的Big Vision软件库。论文被谷歌学术引用八千余次。

4、Conformer: 耦合局部和全局线索的视觉表征模型

议题简介：卷积运算善于提取局部特征，却不具备提取全局表征的能力。为了感受图像全局信息，CNN必须依靠堆叠卷积层，采用池化操作来扩大感受野。Vision Transformer的出现打破了CNN在视觉表征方面的垄断。得益于自注意力机制，Vision Transformers (ViT、Deit)具备了全局、动态感受野的能力，在图像识别任务上取得了更好的结果。但是受限于的计算复杂度，Transformer需要减小输入分辨率、增大下采样步长，这造成切分patch阶段损失图像细节信息。鹏城国家实验室提出了Conformer表征模型，将Transformer与CNN进行了多阶段耦合。Conformer模型可以在不显著增加计算量的前提下显著提升了基网表征能力，并且展现了成为一种视觉大模型基础网络的潜力。依赖鹏城云脑的算力，Conformer展现了做为一种视觉大模型的潜力。本报告也介绍了依托Conformer，鹏城国家实验室的后续视觉表征模型探索。

叶齐祥，中国科学院大学长聘教授，鹏城国家实验室研究员

2013至2014年在美国马里兰大学先进计算机技术研究所（UMIACS）任访问助理教授，2016年Duke大学信息技术研究所(IID)访问学者。主要进行视觉特征表示与视觉目标检测技术研究，在IEEE CVPR, ICCV, NeurIPS, AAAI、ECCV、T-PAMI, TNNLS, TIP, T-ITS, PR等高水平期刊会议发表论文100余篇。所研发高精度目标感知方法支撑了华为、航天等单位的应统。曾获ICCV2017、 CVPR2019会议与高分辨率对地观测重大专项遥感目标解译竞赛冠军、美国马里兰大学杰出研究学者奖、中国电子学会自然科学一等奖。培养多名博士生获中科院院长奖、中国科学院百篇优秀博士论文、博士后创新人才计划支持等。任国际期刊IEEE T-ITS，IEEE T-CSVT编委。

5、基于Context Autoencoder的自监督表征预训练

议题简介：自监督表征预训练旨在从无标记的图像中学习编码器，使得学到的表征具有语义并有利于下游任务。在本次分享中，介绍了一种新颖的掩码图像建模方法，Context Autoencoder (CAE)，用于规模化的的自监督表征学习预训练。核心思想包括在隐表征空间中进行从可见块到掩码块的预测，编码器仅用于表征学习，表征学习仅由编码器负责。此外，会讨论为什么掩码图像建模优于对比学习（例如 SimCLR、MoCo），以及为什么对比学习的性能与 ImageNet上的有监督预训练相当。

王井东，百度计算机视觉首席科学家

负责计算机视觉领域的研究、技术创新和产品研发。加入百度之前，曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。他的代表工作包括高分辨率神经网络（HRNet）、基于有监督的区域特征融合（DRFI）的显著目标检测及基于近邻图的大规模最近邻搜索（NGS，SPTAG）等。他曾担任过许多人工智能会议的领域主席，如 CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等。他现在是IEEE TPAMI和IJCV的编委会成员，曾是IEEE TMM和IEEE TCSVT编委会成员。因在视觉内容理解和检索领域的杰出贡献，他被遴选为国际电气电子工程师学会和国际模式识别学会会士 (IEEE/IAPR Fellow)、国际计算机协会杰出会员。

6、圆桌讨论：视觉模型研究现状与挑战

圆桌论坛嘉宾：

山世光，中科院计算所研究员

曹越，微软亚洲研究院视觉计算组主管研究员

王云鹤，华为算法应用部部长

叶齐祥，中国科学院大学长聘教授，

鹏城国家实验室研究员

王井东，百度计算机视觉首席科学家