2022CVPR云分享 | 清华大学四位讲者带你玩转计算机视觉

点击蓝字

509b86eafe06396d3dc1065cbbb92ab4.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

7月20日晚上7点半,本期我们邀请到清华大学黄高老师实验室的四位讲者,为大家解读2022CVPR的优秀论文!

cdac1b495ce9bdf8debd5ddf6a384c9a.jpeg

哔哩哔哩直播通道

扫码关注AI TIME哔哩哔哩官方账号预约直播

e8db32015baf8ba7009f9d12ddba948f.gif

7月20日 19:30-19:50

bed262216a817412bd756d37586a5e53.gif

b5e45cabd9f49dd02e1d52bfe17b0eb8.png

讲者简介

王语霖:

清华大学自动化系直博三年级,研究方向为机器学习与计算机视觉,主要关注动态深度神经网络的设计与高效训练,以第一作者在国际高水平期刊或会议 TPAMI / NeurIPS / ICLR / ICCV / CVPR / ECCV 上发表8篇学术论文,曾获CCF-CV学术新锐奖、百度奖学金、国家奖学金等。个人主页:https://www.rainforest-wang.cool/

分享内容

AdaFocus:利用空间冗余性实现高效视频识别

报告简介

现有高效视频识别算法往往关注于降低视频的时间冗余性(即将计算集中于视频的部分关键帧)。我们的工作则发现,降低视频的空间冗余性(即寻找和重点处理视频帧中最关键的图像区域),同样是一种效果显著、值得探索的方法;且后者与前者有效互补(即完全可以同时建模时空冗余性,例如关注于关键帧中的关键区域)。在方法上,提出了一个通用于大多数网络的AdaFocus框架,在同等精度的条件下,相较现有方法将计算开销降低了2-3.6倍,将TSM的GPU实测推理速度加快了1.6倍。

7月20日 19:50-20:10

22ef518b2a8e7b24cd26c0f4291d68d0.gif

61bdf13436526e1b180da878e902190f.png

讲者简介

蒋昊峻:

清华大学自动化系直博二年级,以一作或共一身份发表2篇 CVPR 论文,以合作者身份发表过1篇 CVPR, 1篇 ICCV, 1篇 TIP。

分享内容

面向 Visual Grounding 任务的无监督伪语句生成

报告简介

Visual Grounding是视觉语言理解的一个重要课题,该任务需要根据自然语言语句(query)定位图像中的对象。常见的算法通常需要昂贵的手动标记图像与语句对(image-query pair)或图像区域与语句对(image region-query pair)。为了消除对人工注释的严重依赖,我们提出了一种名为 Pseudo-Q 的新方法,可以自动生成用于监督训练的伪语句(pseudo-query)。我们的方法利用现成的对象检测器从未标记的图像中识别视觉对象,然后使用伪语句生成模块以无监督方式获得对这些对象的语言表述。广泛的实验证明我们的方法有两个显着的优势:(1)可以显着降低人工注释成本,例如,在 RefCOCO 上降低 31%的标注成本;(2)在5个通过数据集上均超越最先进的弱监督方法。

7月20日 20:10-20:30

a6bdbc526b7b84210b7cd868fb34b900.gif

43055a9fe95274c64f714713dd1afc5d.png

讲者简介

潘旭冉:

清华大学自动化系直博四年级,研究方向为机器学习与计算机视觉,研究内容主要包括网络结构设计和3D计算机视觉,以第一作者(共同第一作者)在国际高水平会议 NeurIPS / CVPR / ECCV 上发表5篇论文。

分享内容

卷积与自注意力机制的高效结合

报告简介

卷积(Convolution)和自注意力(Self-Attention)模块是面向计算机视觉任务的网络结构设计中极为重要的组成部分。考虑到这两种模块存在较为互补的特点,许多工作尝试将他们进行结合,以此提高网络模型在各类任务上的效果。然而,目前的工作多数通过简单的串并联方式将两种模块进行结合,而忽视了他们之间的内在联系。在本文中,我们对两种模块的计算范式进行分解,发现其中存在相同的计算瓶颈,即1x1卷积。通过共享这些计算瓶颈,我们以最小的计算代价实现了两种模块计算范式的结合(ACmix)。实验表明,ACmix可以应用于多种主流计算机视觉模型中,并在图像分类,语义分割,目标检测等任务中显著提升原有模型的效果。

7月20日 20:30-20:50

90065a717a9089149f7d69993615bd38.gif

b4edc1ce9e4c1781a7c77b4596ed8eea.png

讲者简介

夏卓凡:

清华大学自动化系硕士二年级,以第一作者(共同第一作者)在CVPR上发表 2 篇论文

分享内容

可变形注意力的视觉Transformer

报告简介

Vision Transformer (ViT) 模型在各类视觉任务上都展现出了强大的性能。因其具有较大甚至增大到全局的感受野,ViT相比卷积神经网络(CNN)能更好地建模长距离依赖关系,也拥有更强的表示学习能力。特别是在大量训练数据的情况下,ViT可以更好地scale up到更大的容量的模型,达得SOTA的实验结果。但是,attention机制也是一把双刃剑,大量的key/value增加了不少计算量,使模型难于收敛,也增加了过拟合的风险。现有的工作现有工作采取了很多的稀疏化attention的办法,如Swin Transformer和PVT,但他们它们手工设计的attention模式容易将与任务相关的key和value信息丢弃。本文受卷积网络中Deformable convolution的启发,提出Deformable Attention Transformer (DAT),将可变形机制引入Attention计算,自动关注输入图像中的重要部分。具体地,DAT让所有query都跟同一组key和value交互,而通过对每个输入图像学习一组偏移量,移动key和value到重要的位置实现可变形的attention机制。这样增强了sparse attention的表征能力,同时具有线性空间复杂度。实验表明,DAT在图像分类、目标检测、语义分割等任务中展现了强大的性能。

直播结束后大家可以在群内进行提问,请添加“AI TIME小助手(微信号:AITIME_HY)”,回复“CVPR”,将拉您进“AI TIME CVPR交流群”!

13bfd588189d5fdd074592f3021e9a0c.gif

AI TIME微信小助手

15049b82c8c8a58231aacddb2d53de91.jpeg

主       办:AI TIME 

合作媒体:AI 数据派、学术头条

合作伙伴:智谱·AI、中国工程院知领直播、学堂在线、蔻享学术、AMiner、 Ever链动、科研云

往期精彩文章推荐

6aa6a522c55753106f7e76f2db098caa.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了700多位海内外讲者,举办了逾300场活动,超260万人次观看。

4370739f3e36ac9c9050ba630a48ce69.png

我知道你

在看

~

5259fb3396ce84a38ac50426cf0b9e14.gif

点击 阅读原文 预约直播!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值