论文笔记C3D:Learning Spatiotemporal Features with 3D Convolutional Networks

本文探讨了使用3D卷积网络(C3D)来提取视频的时空特征,通过实验表明C3D模型能有效同时捕获外观和运动信息。在多个基准测试中,仅用C3D特征加线性分类器即可取得良好结果。3×3×3的卷积核被证实为最佳选择。此外,C3D网络可用于生成视频描述子,用于视频动作识别任务。
摘要由CSDN通过智能技术生成

思考

对视频进行描述,其描述子必须:

1.具有普遍性以适应各种场景;

2.必须短小紧凑

3.必须利于计算

4.必须易于实现

图像识别中,特征提取的很完备和优秀,但不适用于视频。本文致力于利用3D CNN提取时空特征。我们只用线性分类器来分类它们,以验证特征好坏。并且这些特征可以被拿来做各种视频分析任务,无需针对任务再调整模型(就笔者知道的,包括video caption, temporal action detection等任务都有许多人使用C3D来提取特征)。

本文的发现

1.用实验验证了3D卷积深度模型很适合同时提取外貌和时空特征;

2.发现3×3×3的卷积核表现最好

3.在4个任务,6个不同的benchmark上,仅仅用我们提取的特征加上线性分类器已经超过或接近当今最好模型了。

我们的方法输入的就是完整的帧,无需依赖于任何预处理。当然,有些部分和AK那篇和双流那篇有些相似。AK那篇除了Slow Fusion都是2D卷积,而本文将在卷积和池化层都使用3D操作。并且还将展示,建立更深的网络以及在时间空间上逐步池化能保证取得最好的效果。

3D卷积网络

接下来的一节,我们介绍基础的3D卷积操作,以及设计不同的3D卷积网络。

对一张灰度图进行2D卷积,得到一张图片(一个feature map),哪怕是彩色图有三个通道,也是一样,最终得到的还是一张图(一个feature map),它们本质上都是2D卷积,不包含任何时间信息。AK那篇中Slow Fusion,虽

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值