一种改进的双流三维卷积神经网络用于人体动作识别
该文的双流指的是RGB和光流,双流分别提取出RGB特征和光流特征,光流是稠密光流,它是基于前后两帧所有像素点的移动估算算法。之后将RGB特征和光流特征匹配,放入3D网络中训练。
本研究的三个主要改进是:
1)将Resnet-101网络独立地集成到目标网络的两个流中;
2) 由两个流的相应卷积层分别获得的两种特征映射(即光流运动和RGB通道信息)相互叠加;
3) 利用三维卷积神经网络(CNN)将时间信息与空间信息相结合,从视频中提取更多的潜在信息。
双流CNN的基本思想是利用RGB图像和视频片段的相应光流同时训练两个独立的单流深度学习网络。然后,在softmax层融合两个流的输出结果。该方法的有效性和有效性可以从三个方面得到保证:
1)运动信息可以用光流来表示;
2)将不同时刻的光流与RGB图像进行叠加,得到更全面的运动信息。
3)3D-CNN能够在时空特征融合的基础上提取更丰富的语义信息,利用全局上下文信息提高最终识别率。
光流提取
本研究采用光流叠加法预先提取光流。稠密光流是一种通过计算图像上所有点的偏移量来形成稠密光流场的逐点匹配的图像配准方法。基于此产生的密集光流场,可以在像素级上执行图像配准。密集光流是两个连续的帧t和t+1之间的一组位移矢量场dt,dt(u,v)表示在帧t的