论文翻译:MARS: Motion-Augmented RGB Stream for Action Recognition

本文提出了一种名为MARS的方法,通过在RGB帧上模拟运动流,避免了在动作识别中计算光流的高成本和延迟。MARS在单流设置下表现出优于RGB或光流流的性能,且在保持高性能的同时,显著提高了效率。
摘要由CSDN通过智能技术生成

最先进的动作识别方法包括一个具有3D卷积的双流架构:RGB帧的外观流和光流帧的运动流。虽然将流与RGB相结合提高了性能,但计算准确的光流的成本较高,并增加了动作识别延迟。这限制了在需要低延迟的实际应用程序中使用两流方法。在本文中,我们介绍了两种培训标准的学习方法3D CNN,运行在RGB帧上,模拟运动流,从而避免了测试时的流计算。首先,通过将基于特征的损失与流流相比最小化,我们证明了网络以高保真度再现了运动流。其次,为了有效地利用外观和运动信息,我们使用基于特征的损失和标准交叉熵损失的线性组合训练动作识别。我们表示流训练使用这个组合损失作为MotionAugmented RGB流(MARS)。作为单个流,MARS的性能优于RGB或单独流,例如with动力学的准确性为72.7%,RGB和Flow分别为72.0%和65.6%。

卷积神经网络的出现(CNNs)[13,19,36],加上更大的数据集[10,18],最近在行为识别方面取得了显著进展[2,32,37]。整合时间信息
cnn主要有三个观点。Simonyan和Zisserman[32]引入了一种双流方法,其中一个流采用RGB帧作为输入来建模外观,另一个流处理光流帧来利用运动信息,Tran等人[37]提出了一种基于RGB帧的三维卷积架构,即即同时在空间和时间上操作的卷积。最后。递归神经网络,例如LSTMs,已经被用来在[5]帧上迭代地聚合信息。最近的方法[2,38,44]基于两流方法的结合,在每个流中使用大数据训练3D卷积。

       综上所述,基于cnn的3D结合策略RGB和流流可以产生最好的结果,但是它也有明显的缺点。首先,两流方法需要从RGB帧中明确而准确的光流提取,这在计算上是昂贵的,正如在微动力学数据集[44]i上的精度与时间图所示,图1所示。从情节中,我

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值