Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

最新推荐文章于 2024-05-19 10:08:59 发布

生产的驴

最新推荐文章于 2024-05-19 10:08:59 发布

阅读量1.4k

点赞数 1

文章标签：人工智能数据库

本文链接：https://blog.csdn.net/weixin_33759269/article/details/89119708

版权

Facebook FAIR 何恺明团队提出了用于视频识别的SlowFast网络。该网络通过两条路径以不同的时间率（快和慢）进行视频识别。在没有预训练的情况下，在Kinetics数据集上的准确率达到了79.0%，在AVA动作检测数据集上实现了28.3mAP，实现了当前最佳水平。本文是AI前线第62篇论文导读，我们对这篇论文的方法关键和实验结果进行了全面解读，以供大家参考。

阅读更多优质论文请关注微信公众号“AI 前线”（ID：ai-front）

摘要

本文提出了用于视频识别的SlowFast网络。该模型包含：1）Slow路径，以低帧率运行，用于捕捉空间语义信息；2）Fast路径，以高帧率运行，以较好的时间分辨率捕捉运动。可以通过减少Fast路径的通道容量，使其变得非常轻，同时学习有用的时间信息用于视频识别。该模型在视频动作分类和检测方面性能强大，而且SlowFast概念带来的重大改进是本文的重要贡献。在没有任何预训练的情况下，我们在Kinetics数据集上的准确率达到了79.0%，远远超过之前的最佳水平。在AVA动作检测数据集上，我们也达到了28.3 Map，是当前最佳水平。论文使用的代码后续将会开源。

介绍

在图像识别领域，对称地处理图像I(x,y)中的两个空间维度x和y是常见的做法。这是由于自然图像具有第一近似各向同性（所有方向具有相同的可能性）和平移不变性。但是对于视频信号I(x,y,t)来说，并非所有的时空方向都有相同的可能性。所以我们就不应该像时空卷积那样对称地处理时间和空间。相反，我们应该“分解”该架构，分别处理空间结构和时间事件。

视觉内容的类别空间语义变化通常十分缓慢，例如，挥手不会在这个动作进行期间改变“手”的识别结果，并且人也总是在“人”类别下，即使他/她从走路变成跑步。因此，类别语义（及其颜色、纹理、光照等）的识别可以相对缓慢地刷新。另一方面，正在执行的动作比其主体识别变化速度快得多，例如拍手、挥手、摇晃、走路或跳跃。应该用快速刷新帧(高时间分辨率)来有效建模可能快速变化的动作。

基于这种想法，本文提出了一种用于视频识别的双路径Slow-Fast模型（如图1）。其中一个路径旨在捕获由图像或稀疏帧提供的语义信息，它以低帧率运行，刷新速度慢。而另一个路径用于捕获快速变化的动作，它的刷新速度快、时间分辨率高。尽管如此，该路径的却是轻量级的，只占总计算开销的20%左右。这是因为第二个路径通道较少，处理空间信息的能力较差，但这些信息可以由第一个路径用较为简洁的方式来提供。根据二者不同的时间速度，作者将其分别命名为Slow路径和Fast路径。二者通过横向连接（lateral connection）进行融合。

$\"image\"$ 图1 SlowFast 网络包括低帧率、低时间分辨率的 Slow 路径和高帧率、高时间分辨率（Slow 路径时间分辨率的 α 倍）的 Fast 路径。Fast 路径使用通道数的一部分（β，如 β = 1/8）来轻量化。Slow 路径和 Fast 路径通过横向连接融合。

这一想法为视频模型带来了灵活、高效的设计。由于自身较轻，Fast 路径不需要执行任何

最低0.47元/天解锁文章

生产的驴

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

Facebook FAIR 何恺明团队提出了用于视频识别的SlowFast网络。该网络通过两条路径以不同的时间率（快和慢）进行视频识别。在没有预训练的情况下，在Kinetics数据集上的准确率达到了79.0%，在AVA动作检测数据集上实现了28.3mAP，实现了当前最佳水平。本文是AI前线第62篇论文导读，我们对这篇论文的方法关键和实验结果进行了全面解读，以供大家参考。阅读更多优质论文请关注微信公...
复制链接

扫一扫