2019-An Improved Two-stream 3D Convolutional Neural Network for Human Action Recognition

最新推荐文章于 2023-09-06 16:52:18 发布

半分热度

最新推荐文章于 2023-09-06 16:52:18 发布

阅读量523

点赞数

分类专栏：暴恐检测文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/qq_41956697/article/details/118278955

版权

本文提出了一种改进的双流三维卷积神经网络，结合RGB和光流信息进行人体动作识别。研究重点包括将Resnet-101整合到双流中，特征映射叠加，以及3D CNN的时间空间信息融合，从而提升识别效果。通过光流提取和RGB特征融合，双流CNN能够捕获运动和结构信息，实验验证了预训练权重和不同ResNet结构对性能的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一种改进的双流三维卷积神经网络用于人体动作识别

该文的双流指的是RGB和光流，双流分别提取出RGB特征和光流特征，光流是稠密光流，它是基于前后两帧所有像素点的移动估算算法。之后将RGB特征和光流特征匹配，放入3D网络中训练。

本研究的三个主要改进是：
1）将Resnet-101网络独立地集成到目标网络的两个流中；
2）由两个流的相应卷积层分别获得的两种特征映射（即光流运动和RGB通道信息）相互叠加；
3）利用三维卷积神经网络（CNN）将时间信息与空间信息相结合，从视频中提取更多的潜在信息。

双流CNN的基本思想是利用RGB图像和视频片段的相应光流同时训练两个独立的单流深度学习网络。然后，在softmax层融合两个流的输出结果。该方法的有效性和有效性可以从三个方面得到保证：
1）运动信息可以用光流来表示；
2）将不同时刻的光流与RGB图像进行叠加，得到更全面的运动信息。
3）3D-CNN能够在时空特征融合的基础上提取更丰富的语义信息，利用全局上下文信息提高最终识别率。
在这里插入图片描述