关注公众号,发现CV技术之美
▊ 写在前面
在视频Transformer中,时间维度通常与两个空间维度(W和H)的处理方式相同。然而,在对象或摄影机可以移动的场景中,在第t帧中的一个位置处的物体可能与在第t+k帧中的该位置的内容完全无关。因此,应该对这些时间相关性对应进行建模,以便于了解动态场景。
为此,作者提出了一种用于视频Transformer的轨迹注意力(trajectory attention) ,它沿着隐式确定的运动路径聚集信息。此外,作者还提出了一种新的方法来解决计算和存储对输入大小的二次依赖关系,这对于高分辨率或长视频尤为重要。
作者将本文的Attention方法运用到的Transformer模型中,并在Kinetics、Something-Something V2和EpicKitchens数据集上的视频动作识别任务中实现了SOTA的结果。
▊ 1. 论文和代码地址
Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers
论文:https://arxiv.org/abs/2106.05392
代码:https://github.com/facebookresearch/Motionformer
▊ 2. Motivation
Transformer已经成为NLP、Vision和Speech的主流结构,其中的自注意机制适用于不同类型的数据和跨域的数据。然而,它的普遍性和缺乏归纳偏置也意味着Transformer通常需要非常大量的数据或特定于域的数据增强来训练 ,对于视频数据,这一现象尤其严重。虽然视频携带丰富的时间信息,但它们也可以包含来自相邻帧的冗余空间信息,而标准的自注意力机制没法克服这种冗余。
因此,作者提供了一种自注意的变体,称为轨迹注意(trajectory attention) ,它能够更好地描述视频中包含的时间信息。对于静态图像的分析,空间局部性可能是最重要的归纳偏置,这激励了卷积网络的设计和在视觉Transformer中使用的空间编码,因为属于同一3D对象的点倾向于投射到图像中彼此接近的像素 上。
在视频数据中是类似的,但是除此之外,视频数据还有一个性质:3D点随着时间的推移而移动,因此沿着特定的二维轨迹投影在图像的不同部分 。现有的视频Transformer方法忽略这些轨迹,直接汇集跨时间维度或者整个三维时空特征上的信息。作者认为,沿着运动轨迹池化,将为视频数据提供更自然的归纳偏置,并允许网络从同一物体或区域的多个视图聚合信息,以推断物体或区域如何移动 。
在本文中,作者利用注意力机制来寻找这些轨迹。RAFT等方法表明通过比较跨空间和时间的局部特征,可以获得良好的光流估计。因此