关注公众号,发现CV技术之美
本篇分享 CVPR 2022 论文『MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection』,Inria&SBU提出用于动作检测的多尺度时间Transformer,《MS-TCT》,检测效果SOTA!代码已开源!
详细信息如下:
论文链接:https://arxiv.org/abs/2112.03902
项目链接:https://github.com/dairui01/MS-TCT
01
摘要
动作检测是一项重要且具有挑战性的任务,尤其是在标记密集的未剪辑视频数据集中。这些数据由复杂的时间关系组成,包括复合或共同发生的动作。要在这些复杂的环境中检测动作,有效地捕获短期和长期时间信息至关重要。为此,作者提出了一种用于动作检测的新型“ConvTransformer”网络:MS-TCT。
该网络由三个主要组件组成:
时间编码器模块,它以多个时间分辨率探索全局和局部时间关系;
时间尺度混合器模块,它有效地融合多尺度特征,创建统一的特征表示;
分类模块,它在时间上学习每个动作实例的中心相对位置,并预测帧级分类分数。
作者在多个具有挑战性的数据集(如Charades、TSU和MultiTHUMOS)上的实验结果验证了所提方法的有效性,该方法在所有三个数据集上都优于最先进的方法。
02
Motivation
动作检测是计算机视觉中的一个众所周知的问题,其目的是在未经剪辑的视频中发现动作之间精确的时间边界。它与现实世界的设置很好地吻合,因为视频的每一分钟都可能充满了要检测和标记的多个动作。有一些公共数据集提供了密集的标注来解决这个问题,其动作分布类似于真实世界。然而,这类数据可能具有挑战性,在不同的时间跨度内同时发生多个动作,并且背景信息有限。因此,了解行动之间的短期和长期时间依赖性对于做出良好的预测至关重要。
例如,“吃东西”(见上图)的动作可以从“打开冰箱”和“制作三明治”中获取上下文信息,分别对应于短期和长期的动作依赖关系。此外,“把东西放在桌子上”和“做三明治”的出现提供了上下文信息来检测复合动作“烹饪”。这个例子表明需要一种有效的时间建模技术来检测标记密集的视频中的动作。
为了对未剪辑视频中的时间关系进行建模,以前的多种方法都使用1D时间卷积。然而,受其核大小的限制,基于卷积的方法只能直接访问局部信息,无法学习视频中时间上遥远的片段之间的直接关系(这里,将一组连续帧视为一个片段)。因此,此类方法无法对可能对动作检测很重要的片段之间的远程交互进行建模。
随着Transformers在自然语言处理领域的成功,以及最近在计算机视觉领域的成功,最近的方法利用多头自注意(MHSA)在视频中建模长期关系以进行动作检测。这种注意力机制可以在视频的每个时间段(即时间token)之间建立直接的一对一全局关系,以检测高度相关和复合的动作。然而,现有的方法依赖于在输入帧本身上建模这种长期关系。
在这里,时间token仅覆盖一部分帧,相对一个动作来说,这些帧的数量太少了。此外,在此设置中,Transformer需要明确地学习由于时间一致性而产生的相邻token之间的强关系,而时间卷积(即局部归纳偏置)自然会产生这种关系。因此,纯transformer架构可能不足以为动作检测建模复杂的时间依赖关系。