论文翻译：MARS: Motion-Augmented RGB Stream for Action Recognition

最新推荐文章于 2024-07-11 18:00:32 发布

王壹浪

最新推荐文章于 2024-07-11 18:00:32 发布

阅读量966

点赞数

分类专栏：心得人工智能文章标签：网络深度学习机器学习人工智能计算机视觉

本文链接：https://blog.csdn.net/com_fang_bean/article/details/107901181

版权

本文提出了一种名为MARS的方法，通过在RGB帧上模拟运动流，避免了在动作识别中计算光流的高成本和延迟。MARS在单流设置下表现出优于RGB或光流流的性能，且在保持高性能的同时，显著提高了效率。

摘要由CSDN通过智能技术生成

最先进的动作识别方法包括一个具有3D卷积的双流架构:RGB帧的外观流和光流帧的运动流。虽然将流与RGB相结合提高了性能，但计算准确的光流的成本较高，并增加了动作识别延迟。这限制了在需要低延迟的实际应用程序中使用两流方法。在本文中，我们介绍了两种培训标准的学习方法3D CNN，运行在RGB帧上，模拟运动流，从而避免了测试时的流计算。首先，通过将基于特征的损失与流流相比最小化，我们证明了网络以高保真度再现了运动流。其次，为了有效地利用外观和运动信息，我们使用基于特征的损失和标准交叉熵损失的线性组合训练动作识别。我们表示流训练使用这个组合损失作为MotionAugmented RGB流(MARS)。作为单个流，MARS的性能优于RGB或单独流，例如with动力学的准确性为72.7%，RGB和Flow分别为72.0%和65.6%。

卷积神经网络的出现(CNNs)[13,19,36]，加上更大的数据集[10,18]，最近在行为识别方面取得了显著进展[2,32,37]。整合时间信息
cnn主要有三个观点。Simonyan和Zisserman[32]引入了一种双流方法，其中一个流采用RGB帧作为输入来建模外观，另一个流处理光流帧来利用运动信息，Tran等人[37]提出了一种基于RGB帧的三维卷积架构，即即同时在空间和时间上操作的卷积。最后。递归神经网络，例如LSTMs，已经被用来在[5]帧上迭代地聚合信息。最近的方法[2,38,44]基于两流方法的结合，在每个流中使用大数据训练3D卷积。

综上所述，基于cnn的3D结合策略RGB和流流可以产生最好的结果，但是它也有明显的缺点。首先，两流方法需要从RGB帧中明确而准确的光流提取，这在计算上是昂贵的，正如在微动力学数据集[44]i上的精度与时间图所示，图1所示。从情节中，我

最低0.47元/天解锁文章

王壹浪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
论文翻译：MARS: Motion-Augmented RGB Stream for Action Recognition

最先进的动作识别方法包括一个具有3D卷积的双流架构:RGB帧的外观流和光流帧的运动流。虽然将流与RGB相结合提高了性能，但计算准确的光流的成本较高，并增加了动作识别延迟。这限制了在需要低延迟的实际应用程序中使用两流方法。在本文中，我们介绍了两种培训标准的学习方法3 d CNN...
复制链接

扫一扫