2019-An Improved Two-stream 3D Convolutional Neural Network for Human Action Recognition

本文提出了一种改进的双流三维卷积神经网络,结合RGB和光流信息进行人体动作识别。研究重点包括将Resnet-101整合到双流中,特征映射叠加,以及3D CNN的时间空间信息融合,从而提升识别效果。通过光流提取和RGB特征融合,双流CNN能够捕获运动和结构信息,实验验证了预训练权重和不同ResNet结构对性能的影响。
摘要由CSDN通过智能技术生成

一种改进的双流三维卷积神经网络用于人体动作识别

该文的双流指的是RGB和光流,双流分别提取出RGB特征和光流特征,光流是稠密光流,它是基于前后两帧所有像素点的移动估算算法。之后将RGB特征和光流特征匹配,放入3D网络中训练。

本研究的三个主要改进是:
1)将Resnet-101网络独立地集成到目标网络的两个流中;
2) 由两个流的相应卷积层分别获得的两种特征映射(即光流运动和RGB通道信息)相互叠加;
3) 利用三维卷积神经网络(CNN)将时间信息与空间信息相结合,从视频中提取更多的潜在信息。

双流CNN的基本思想是利用RGB图像和视频片段的相应光流同时训练两个独立的单流深度学习网络。然后,在softmax层融合两个流的输出结果。该方法的有效性和有效性可以从三个方面得到保证:
1)运动信息可以用光流来表示;
2)将不同时刻的光流与RGB图像进行叠加,得到更全面的运动信息。
3)3D-CNN能够在时空特征融合的基础上提取更丰富的语义信息,利用全局上下文信息提高最终识别率。
在这里插入图片描述

光流提取

本研究采用光流叠加法预先提取光流。稠密光流是一种通过计算图像上所有点的偏移量来形成稠密光流场的逐点匹配的图像配准方法。基于此产生的密集光流场,可以在像素级上执行图像配准。密集光流是两个连续的帧t和t+1之间的一组位移矢量场dt,dt(u,v)表示在帧t的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值