飞桨PaddlePaddle论文复现营论文学习心得

最新推荐文章于 2024-08-05 09:23:12 发布

qq_39307436

最新推荐文章于 2024-08-05 09:23:12 发布

阅读量405

点赞数

文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/qq_39307436/article/details/107825136

版权

本文介绍了ICCV 2017上的一篇论文，该论文提出了一种3D结构的ResNet网络，用于视频分类任务。通过3D卷积和池化层提取时空特征，相比C3D在性能上有所提升。详细阐述了网络结构、训练细节，并提供了开源代码链接，适合深度学习初学者实践。

摘要由CSDN通过智能技术生成

【飞桨PaddlePaddle论文复现营】【论文心得】Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition

论文解读
- 正文

论文解读

这篇论文是ICCV 2017上的workshop，主要提出了一种3D结构的ResNet网络用于视频分类任务，并且公布了Github源码，对于我这种初学小白可以说非常友好，推荐大家读完论文可以跑跑代码，加深理解。下面简单解读论文的主要内容：

正文

视频分类任务区别于一般的图像分类，视频数据在时空维度也具有一定的特征，传统的图像二维卷积只能提取单帧图像的特征，虽然结合双流CNN的思路可以进行一般的视屏动作特征提取，但是未能很好的提取视频中时空维度的特征信息，本文作者提出一种具有时空3D内核(3D CNN)的卷积神经网络，用于相对较深的神经网络结构——ResNet，可以直接从视频中提取时空特征，进行动作识别的能力。尽管模型的参数数量很大，但它比相对较浅的网络(如C3D)获得了更好的性能。

网络结构

在本文中，作者将在图像识别中优于初始结构的ResNet体系结构引入到3D CNN中，其结构如下图：
3D CNN
3D ResNet网络和原始ResNet网络的区别是卷积核和池化层的维数。 3D ResNet通过3D卷积层和3D池化层进行时空维度的特征提取。卷积核的尺寸为3×3×3，卷积核conv1的时间步长为1，类似于C3D结构。网络使用16帧RGB剪辑作为输入。所以输入的图像大小为3 ×16×112×112。输入的下采样由conv3_1、conv4_1、conv5_1执行，当特征映射的数量增加时步长取2，作者采用零填充的

最低0.47元/天解锁文章

qq_39307436

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
飞桨PaddlePaddle论文复现营论文学习心得

【飞桨PaddlePaddle论文复现营】【论文心得】Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition论文解读正文网络结构训练细节训练结果总结链接论文解读这篇论文是ICCV 2017上的workshop，主要提出了一种3D结构的ResNet网络用于视频分类任务，并且公布了Github源码，对于我这种初学小白可以说非常友好，推荐大家读完论文可以跑跑代码，加深理解。下面简单解读论文的主要内容：
复制链接

扫一扫