动机
-
视频内容的飞速增长促使人们需要更有效的视频识别。
-
计算负载增加问题。
动作识别领域的主要方法都试图从输入视频的空间和时间两方面提取信息。达到SotA(State of the Art)精度的方法通常利用3D卷积层作为从视频帧中提取时间信息的方法。由于3D卷积在计算上是昂贵的,通常的做法是将这些卷积应用于预定数量的短视频剪切视频段上,每个视频剪切视频段由密集采样的帧组成,并且在这些剪切视频段上平均预测。由于视频的剪切视频段要覆盖整个视频,所以这种方法使用了很大一部分视频帧,导致了帧处理和转换的计算瓶颈。最近的方法从不同的角度解决了处理瓶颈:更有效的每帧架构和3D模块、剪切视频段采样和双流网络。虽然精确度和效率之间的权衡不断提高,但对于现实世界的应用程序来说是不切实际的。对于许多实时应用程序来说,所需的运行时间要比当前最先进的方法提供的运行时间低几个数量级。
-
通过减少来自在整个序列上全局传播的单个帧的信息,在输入帧序列上应用全局自注意力是减少所需帧数的关键。
对输入视频进行次采样,大大降低了训练和推理过程中的计算负荷,并且还具有降低检索输入数据的成本的额外好处。实际上,在若干应用中,存在与从存储器或通过通信网络检索输入数据相关联的成本。在这种带宽有限的应用中,大多数动作识别方法的部署成本都高得吓人,而像这样依赖于有意义的更少的输入数据来操作的方法具有明显的优势。为了给出这样一个场景的概念,假设对位于存储器中的视频帧的每次访问都有一个成本。对于典型方法,30*16=480帧被访问以便对视频执行推断。与本文方法相比,同样的视频需要16帧,本文实现的成本降低了30倍,此外还减少了运行时间。
-
视觉transformer(ViT)对视频的自然扩展。