论文笔记C3D：Learning Spatiotemporal Features with 3D Convolutional Networks

最新推荐文章于 2022-01-05 21:06:28 发布

Blssel

最新推荐文章于 2022-01-05 21:06:28 发布

阅读量1.7k

点赞数

分类专栏：机器学习神经网络深度学习文章标签：视频 cnn C3D 论文笔记动作识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013006675/article/details/79664494

版权

本文探讨了使用3D卷积网络（C3D）来提取视频的时空特征，通过实验表明C3D模型能有效同时捕获外观和运动信息。在多个基准测试中，仅用C3D特征加线性分类器即可取得良好结果。3×3×3的卷积核被证实为最佳选择。此外，C3D网络可用于生成视频描述子，用于视频动作识别任务。

摘要由CSDN通过智能技术生成

思考

对视频进行描述，其描述子必须：

1.具有普遍性以适应各种场景；

2.必须短小紧凑

3.必须利于计算

4.必须易于实现

图像识别中，特征提取的很完备和优秀，但不适用于视频。本文致力于利用3D CNN提取时空特征。我们只用线性分类器来分类它们，以验证特征好坏。并且这些特征可以被拿来做各种视频分析任务，无需针对任务再调整模型（就笔者知道的，包括video caption, temporal action detection等任务都有许多人使用C3D来提取特征）。

本文的发现

1.用实验验证了3D卷积深度模型很适合同时提取外貌和时空特征；

2.发现3×3×3的卷积核表现最好

3.在4个任务，6个不同的benchmark上，仅仅用我们提取的特征加上线性分类器已经超过或接近当今最好模型了。

我们的方法输入的就是完整的帧，无需依赖于任何预处理。当然，有些部分和AK那篇和双流那篇有些相似。AK那篇除了Slow Fusion都是2D卷积，而本文将在卷积和池化层都使用3D操作。并且还将展示，建立更深的网络以及在时间空间上逐步池化能保证取得最好的效果。

3D卷积网络

接下来的一节，我们介绍基础的3D卷积操作，以及设计不同的3D卷积网络。

对一张灰度图进行2D卷积，得到一张图片（一个feature map），哪怕是彩色图有三个通道，也是一样，最终得到的还是一张图（一个feature map），它们本质上都是2D卷积，不包含任何时间信息。AK那篇中Slow Fusion，虽

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。