直播预告 | ICLR’22：用于高效时空表征学习的统一变换器

最新推荐文章于 2022-11-25 20:26:43 发布

AI_Drive

最新推荐文章于 2022-11-25 20:26:43 发布

阅读量2k

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/AI_Drive/article/details/124344337

版权

「AI Drive」是由 biendata 和 PaperWeekly 共同发起的学术直播间，旨在帮助更多的青年学者宣传其最新科研成果。我们一直认为，单向地输出知识并不是一个最好的方式，而有效地反馈和交流可能会让知识的传播更加有意义，从而产生更大的价值。

本期 AI Drive，我们邀请到中国科学院深圳先进技术研究院二年级博士生-黎昆昌，为大家在线解读其发表在 ICLR 2022的最新研究成果：用于高效时空表征学习的统一变换器。对本期主题感兴趣的小伙伴，4月 26日（周二）晚 7 点，我们准时相约 AI_Drive B 站直播间。

一、直播信息

1、演讲摘要：

视频帧间存在巨大的局部冗余性与复杂的全局依赖性，使得从视频中学习丰富的多尺度语义信息极具挑战。现有的两大主流模型CNN和ViT，往往只关注解决问题之一。卷积只在局部小邻域聚合上下文，天然地避免了冗余的全局计算，但受限的感受野难以建模全局依赖；而自注意力通过比较全局相似度，自然将长距离目标关联，但可视化分析表明，自注意力在浅层编码局部特征十分低效。在UniFormer中，我们以Transformer的风格统一了卷积与自注意力，在网络浅层和深层分别解决冗余性与长时依赖性两大问题。实验表明，UniFormer不仅在视频分类上性能优越，而且拓展到图像分类、检测、分割和姿态估计任务上，同样效果显著。

2、论文名称：

UniFormer: Unified Transformer for Efficient Spatiotemporal Representation Learning

3、论文链接：

https://openreview.net/forum?id=nBU_u6DLvoK

4、本次分享的具体内容有：