Facebook AI&牛津提出带“轨迹注意力”的Video Transformer,在视频动作识别任务中性能SOTA!...

本文提出轨迹注意力机制,针对视频Transformer,通过沿着运动轨迹聚集信息,改进时间相关性的建模,降低视频Transformer对大量数据的依赖。在Kinetics、Something-Something V2和EpicKitchens数据集上实现SOTA结果。同时,通过近似算法解决计算复杂度问题。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

 写在前面

在视频Transformer中,时间维度通常与两个空间维度(W和H)的处理方式相同。然而,在对象或摄影机可以移动的场景中,在第t帧中的一个位置处的物体可能与在第t+k帧中的该位置的内容完全无关。因此,应该对这些时间相关性对应进行建模,以便于了解动态场景。

为此,作者提出了一种用于视频Transformer的轨迹注意力(trajectory attention) ,它沿着隐式确定的运动路径聚集信息。此外,作者还提出了一种新的方法来解决计算和存储对输入大小的二次依赖关系,这对于高分辨率或长视频尤为重要。

作者将本文的Attention方法运用到的Transformer模型中,并在Kinetics、Something-Something V2和EpicKitchens数据集上的视频动作识别任务中实现了SOTA的结果。

 1. 论文和代码地址

09803f8e8c6e0eb44279b104035a89fc.png

Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers

论文:https://arxiv.org/abs/2106.05392
代码:https://github.com/facebookresearch/Motionformer

 2. Motivation

Transformer已经成为NLP、Vision和Speech的主流结构,其中的自注意机制适用于不同类型的数据和跨域的数据。然而,它的普遍性和缺乏归纳偏置也意味着Transformer通常需要非常大量的数据或特定于域的数据增强来训练 ,对于视频数据,这一现象尤其严重。虽然视频携带丰富的时间信息,但它们也可以包含来自相邻帧的冗余空间信息,而标准的自注意力机制没法克服这种冗余。

因此,作者提供了一种自注意的变体,称为轨迹注意(trajectory attention) ,它能够更好地描述视频中包含的时间信息。对于静态图像的分析,空间局部性可能是最重要的归纳偏置,这激励了卷积网络的设计和在视觉Transformer中使用的空间编码,因为属于同一3D对象的点倾向于投射到图像中彼此接近的像素 上。

在视频数据中是类似的,但是除此之外,视频数据还有一个性质:3D点随着时间的推移而移动,因此沿着特定的二维轨迹投影在图像的不同部分 。现有的视频Transformer方法忽略这些轨迹,直接汇集跨时间维度或者整个三维时空特征上的信息。作者认为,沿着运动轨迹池化,将为视频数据提供更自然的归纳偏置,并允许网络从同一物体或区域的多个视图聚合信息,以推断物体或区域如何移动

在本文中,作者利用注意力机制来寻找这些轨迹。RAFT等方法表明通过比较跨空间和时间的局部特征,可以获得良好的光流估计。因此࿰

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值