最先进的动作识别方法包括一个具有3D卷积的双流架构:RGB帧的外观流和光流帧的运动流。虽然将流与RGB相结合提高了性能,但计算准确的光流的成本较高,并增加了动作识别延迟。这限制了在需要低延迟的实际应用程序中使用两流方法。在本文中,我们介绍了两种培训标准的学习方法3D CNN,运行在RGB帧上,模拟运动流,从而避免了测试时的流计算。首先,通过将基于特征的损失与流流相比最小化,我们证明了网络以高保真度再现了运动流。其次,为了有效地利用外观和运动信息,我们使用基于特征的损失和标准交叉熵损失的线性组合训练动作识别。我们表示流训练使用这个组合损失作为MotionAugmented RGB流(MARS)。作为单个流,MARS的性能优于RGB或单独流,例如with动力学的准确性为72.7%,RGB和Flow分别为72.0%和65.6%。
卷积神经网络的出现(CNNs)[13,19,36],加上更大的数据集[10,18],最近在行为识别方面取得了显著进展[2,32,37]。整合时间信息
cnn主要有三个观点。Simonyan和Zisserman[32]引入了一种双流方法,其中一个流采用RGB帧作为输入来建模外观,另一个流处理光流帧来利用运动信息,Tran等人[37]提出了一种基于RGB帧的三维卷积架构,即即同时在空间和时间上操作的卷积。最后。递归神经网络,例如LSTMs,已经被用来在[5]帧上迭代地聚合信息。最近的方法[2,38,44]基于两流方法的结合,在每个流中使用大数据训练3D卷积。
综上所述,基于cnn的3D结合策略RGB和流流可以产生最好的结果,但是它也有明显的缺点。首先,两流方法需要从RGB帧中明确而准确的光流提取,这在计算上是昂贵的,正如在微动力学数据集[44]i上的精度与时间图所示,图1所示。从情节中,我