飞桨PaddlePaddle论文复现营论文学习心得

本文介绍了ICCV 2017上的一篇论文,该论文提出了一种3D结构的ResNet网络,用于视频分类任务。通过3D卷积和池化层提取时空特征,相比C3D在性能上有所提升。详细阐述了网络结构、训练细节,并提供了开源代码链接,适合深度学习初学者实践。
摘要由CSDN通过智能技术生成

【飞桨PaddlePaddle论文复现营】【论文心得】Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition

论文解读

这篇论文是ICCV 2017上的workshop,主要提出了一种3D结构的ResNet网络用于视频分类任务,并且公布了Github源码,对于我这种初学小白可以说非常友好,推荐大家读完论文可以跑跑代码,加深理解。下面简单解读论文的主要内容:

正文

视频分类任务区别于一般的图像分类,视频数据在时空维度也具有一定的特征,传统的图像二维卷积只能提取单帧图像的特征,虽然结合双流CNN的思路可以进行一般的视屏动作特征提取,但是未能很好的提取视频中时空维度的特征信息,本文作者提出一种具有时空3D内核(3D CNN)的卷积神经网络,用于相对较深的神经网络结构——ResNet,可以直接从视频中提取时空特征,进行动作识别的能力。尽管模型的参数数量很大,但它比相对较浅的网络(如C3D)获得了更好的性能。

网络结构

在本文中,作者将在图像识别中优于初始结构的ResNet体系结构引入到3D CNN中,其结构如下图:
3D CNN
3D ResNet网络和原始ResNet网络的区别是卷积核和池化层的维数。 3D ResNet通过3D卷积层和3D池化层进行时空维度的特征提取。 卷积核的尺寸为3×3×3,卷积核conv1的时间步长为1,类似于C3D结构。 网络使用16帧RGB剪辑作为输入。 所以输入的图像大小为3 ×16×112×112。输入的下采样由conv3_1、conv4_1、conv5_1执行,当特征映射的数量增加时步长取2,作者采用零填充的

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值