「AI Drive」是由 biendata 和 PaperWeekly 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果。我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义,从而产生更大的价值。
本期 AI Drive,我们邀请到中国科学院深圳先进技术研究院二年级博士生-黎昆昌,为大家在线解读其发表在 ICLR 2022的最新研究成果:用于高效时空表征学习的统一变换器。对本期主题感兴趣的小伙伴,4月 26日(周二)晚 7 点,我们准时相约 AI_Drive B 站直播间。
一、直播信息
1、演讲摘要:
视频帧间存在巨大的局部冗余性与复杂的全局依赖性,使得从视频中学习丰富的多尺度语义信息极具挑战。现有的两大主流模型CNN和ViT,往往只关注解决问题之一。卷积只在局部小邻域聚合上下文,天然地避免了冗余的全局计算,但受限的感受野难以建模全局依赖;而自注意力通过比较全局相似度,自然将长距离目标关联,但可视化分析表明,自注意力在浅层编码局部特征十分低效。在UniFormer中,我们以Transformer的风格统一了卷积与自注意力,在网络浅层和深层分别解决冗余性与长时依赖性两大问题。实验表明,UniFormer不仅在视频分类上性能优越,而且拓展到图像分类、检测、分割和姿态估计任务上,同样效果显著。
2、论文名称:
UniFormer: Unified Transformer for Efficient Spatiotemporal Representation Learning
3、论文链接:
https://openreview.net/forum?id=nBU_u6DLvoK
4、本次分享的具体内容有:
-
研究背景
-
研究方法
-
结果分析
-
下游拓展
-
结果与展望
二、嘉宾介绍
黎昆昌,中国科学院深圳先进技术研究院二年级博士生,师从乔宇研究员和王亚立副研究员。主要研究方向为视频理解与轻量化模型设计。
三、直播地址 & 交流群
本次直播将在AI_Drive B 站直播间进行,评论“直播”可以添加小助手入群。线上分享结束后,可在直播间实时QA。
关注微信公众号“数据实战派”,可根据自动回复获取直播PPT(一般直播隔天后可获得),关注b站“AI_Drive”观看直播回放。如果希望成为分享者或兼职志愿者,请直接联系小助手(biendata02)。