Talk预告 | 腾讯AI Lab研究员童湛&南京大学谈婧：基于注意力机制的视频自监督表示学习和时序动作检测

本文链接：https://blog.csdn.net/hanseywho/article/details/128407204

本期为TechBeat人工智能社区第465期线上Talk！

北京时间12月22日(周四)20:00，腾讯AI Lab研究员——童湛&南京大学计算机科学与技术系硕士研究生——谈婧的Talk将准时在TechBeat人工智能社区开播！

他们与大家分享的主题是: “基于注意力机制的视频自监督表示学习和时序动作检测”，届时将分享在视频理解领域的注意力机制设计和学习方法，包括1）视频掩码自编码器VideoMAE，设计了高掩码率的通道掩蔽策略，有效实现了视频Transformer的预训练，在众多下游任务展现了优异的识别性能；2）视频时序动作检测器PointTAD，提出了基于稀疏点表示的多类时序动作检测框架，通过动态交互和解码模块，实现了多类别并发动作实例的并行解译。

Talk·信息

▼

主题：基于注意力机制的视频自监督表示学习和时序动作检测

嘉宾：腾讯AI Lab研究员童湛

南京大学计算机科学技术系硕士研究生谈婧

时间：北京时间 12月22日(周四) 20:00

地点：TechBeat人工智能社区

http://www.techbeat.net/

点击下方链接，即可观看视频

TechBeatTechBeat是荟聚全球华人AI精英的成长社区，每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。https://www.techbeat.net/talk-info?id=742

Talk·介绍

▼

基于注意力机制的视频自监督表示学习和时序动作检测

视频理解已经成为现阶段人工智能领域的研究热点和难点，视频自监督表示学习和时序动作检测是其中的关键技术。注意力机制（Attention）已经在视觉、语音、自然语言处理等领域展现了强大的表示和建模能力。在本次Talk中，我们将介绍在视频理解领域的注意力机制设计和学习方法，包括1）视频掩码自编码器VideoMAE，设计了高掩码率的通道掩蔽策略，有效实现了视频Transformer的预训练，在众多下游任务展现了优异的识别性能；2）视频时序动作检测器PointTAD，提出了基于稀疏点表示的多类时序动作检测框架，通过动态交互和解码模块，实现了多类别并发动作实例的并行解译。

基于掩码和重建的视频自监督预训练范式

目前最先进的视觉自注意力模型 (Vision Transformer)通常需要先在超大规模的图像或视频数据集上进行预训练, 才能在相对较小的数据集上展示出卓越的性能。在这个工作中，我们利用掩码式自监督预训练的方式对Vision Transformer进行预训练。我们设计了一种带有极高掩码比率的管道式掩码策略，并且提出了视频掩码自编码器（VideoMAE），释放Vision Transformer在视频理解相关任务上的强大表征能力。

Talk大纲如下：

问题引入
目前领域存在的问题
方法：视频掩码自编码器
实验：消融实验与结果
可视化分析
总结

基于可学习查询点的多类别时序动作检测框架

经典时序动作检测任务往往局限于同一个视频中只包含单一类别、不重叠动作的理想情况。但在现实场景中，不同类别的动作常常同时发生。因此，我们关注多类别场景下的时序动作检测，旨在检测多类别视频中所有的动作。该任务具有着细粒度动作识别和并发动作的精细定位两大挑战。为了应对这些挑战，我们在NeurIPS2022提出PointTAD，可以灵活地基于一组可学习的查询点同时定位动作边界帧和关键帧，构建精细动作表征。

Talk大纲如下：

问题引入：时序动作检测是什么？为什么要研究多类别场景下的时序动作检测？
相关工作及存在的问题
方法：查询点的核心思想、PointTAD模型总览、动作查询量的更新流程、可学习查询点与多层次交互模块的具体设计
实验：消融实验与结果
可视化分析
总结

Talk·预习资料

▼

paper: https://arxiv.org/abs/2203.12602
code: https://github.com/MCG-NJU/VideoMAE
paper: https://arxiv.org/abs/2210.11035
code: https://github.com/MCG-NJU/PointTAD

Talk·提问交流

▼

在Talk界面下的【交流区】参与互动！留下你的打call🤟和问题🙋，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk·嘉宾介绍

▼

童湛

腾讯AI Lab研究员

童湛，腾讯AI Lab研究员，硕士毕业于南京大学计算机科学与技术系，导师为王利民。主要研究方向包含计算机视觉、深度学习、视频理解、视频自监督表征学习等。

谈婧

南京大学计算机科学与技术系硕士研究生

谈婧，南京大学计算机科学与技术系硕士研究生，导师为王利民教授，本科毕业于南京大学匡亚明学院计算机方向，未来前往香港中文大学MMLab攻读博士。硕士期间在计算机视觉和机器学习顶会ICCV和NeurIPS上作为第一作者发表两篇工作。主要研究方向包含计算机视觉、深度学习、视频理解、时序动作检测。

-The End-

关于TechBeat人工智能社区

▼

TechBeat(www.techbeat.net)隶属于将门创投，是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>TechBeat，一个荟聚全球华人AI精英的学习成长社区