​​An Image is Worth 16x16 Words,那么一个视频是什么呢?阿里达摩院用STAM给你答案!...

关注公众号,发现CV技术之美

 写在前面

动作识别领域的主要方法从输入视频的空间和时间维度中提取信息。SOTA的方法通常利用三维卷积层作为从视频帧中提取时间信息。使用这种卷积需要从输入视频中采样帧,其中每个片段是密集采样帧的集合。由于每个短片段覆盖输入视频的一小部分,因此在推断时需要对多个片段进行采样,以覆盖视频的整个时间长度。这会增加计算量,对于实际应用是不现实的。

在本文中,作者通过显著减少推理所需的帧数来解决计算瓶颈。本文的方法依赖于一个时间Transformer,它将全局注意力应用于视频帧,从而更好地利用每一帧中的显著信息。在Kinetics-400数据集上,本文的方法在帧数减少30倍的情况下达到了80.5的top-1精度,推理速度比一般的方法快40倍。

 1. 论文和代码地址

94904d25c6188ffbdbaf11d8b3cbb542.png

An Image is Worth 16x16 Words, What is a Video Worth?

论文:https://arxiv.org/abs/2103.13915

代码:https://github.com/Alibaba-MIIL/STAM

 2. Motivation

视频内容的显著增长促使人们需要更高效的视频识别方法。摄像机覆盖率的增加和视频流的网络带宽的不断增长使得在线识别在机器人技术、安全和人机交互等不同领域变得至关重要。其他应用,如大规模视频检索,直接受益于更快的识别,以及视频帧转码的高效利用。

动作识别的任务是通过从单个帧中提取相关信息对视频进行分类。3D卷积能够提取连续帧的空间和时间信息,进行动作识别。由于3D卷积在计算上非常昂贵,通常的做法是将其应用于预定义数量的短视频片段上,每个视频片段由密集采样的帧组成,因此需要对这些片段上的预测进行平均。

由于片段应覆盖整个视频以进行准确预测,此类方法使用了很大一部分的视频帧,从而导致帧处理和转码的计算瓶颈。最近的方法从不同角度解决了处理瓶颈:更高效的帧处理架构和3D模块,片段采样和双流网络。虽然精度和效率之间的权衡在不断提高,但许多实时应用程序所需的运行时间,比当前SOTA方法所提供的运行时间低几个数量级。

在这项工作中,作者采用了一种不同的方法来实现有效的动作识别。作者通过端到端的注意机制从少量均匀采样的视频帧中学习时空表示来训练分类器。由于连续视频帧往往相似,因此使用3D卷积的多片段推断通常涉及冗余计算 。此外,3D卷积的范围受到设计的限制,仅限于短动作,而现实世界中的应用程序通常跨越更大的时间间隔

受自然语言处理(NLP)领域序列建模最新突破的启发,作者将视觉Transformer(ViT)对视频数据进行了扩展。作者将视频看做文本段落,以便有效地进行分类。

为此,作者从中均匀采样句子(图像)并将其划分为单词(patch)。在NLP中,Transformer模型已被证明优于其他序列建模技术。Transformer建立在一个多头自注意层上,该层学习序列中

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值