视频特征提取：C3D/Learning Spatiotemporal Features with 3D Convolutional Networks

最新推荐文章于 2024-04-05 12:49:54 发布

全员鳄鱼

最新推荐文章于 2024-04-05 12:49:54 发布

阅读量3.5k

点赞数 4

分类专栏：知识分享视频系列 PyTorch 文章标签：深度学习计算机视觉 pytorch caffe 视频处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38372240/article/details/107972248

版权

总结

3D conv在之前并没有广为盛行于视频处理领域。作者认为，相比会丢失时间信息的2D conv，3D conv非常适合时空特征学习（即针对视频），下图是2D conv和3D conv的区别。
在这里插入图片描述

作者使用基于3x3x3的3D conv的带有全连接层的深度卷积神经网络对视频进行特征提取，同时验证了3x3x3的3D conv性能相对其他大小的3D conv更优秀。

并且，训练好的C3D可以作为优秀的特征提取器，能够提取输入视频的特征，用作在其他任务上。

作者认为，一个优秀的视频描述符应该有四个指标：

通用性（generic）
紧凑型（compact）
高效率（efficient）
易实施（simple）

作者认为本文C3D网络提取的特征能够达到以上四个指标，拥有良好的性能。

Methods

由于没有3D conv方面的先验知识，作者借用了3x3 conv在2D conv上的成功的先验知识，首先就选择3x3x3卷积进行实验。
NOTE THAT：视频用c*l*h*w表示，c为通道，l为帧长度（时序），hw为帧尺寸

最低0.47元/天解锁文章

关注

4
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
视频特征提取：C3D/Learning Spatiotemporal Features with 3D Convolutional Networks

总结3D conv在之前并没有广为盛行于视频处理领域。作者认为，相比会丢失时间信息的2D conv，3D conv非常适合时空特征学习（即针对视频），下图是2D conv和3D conv的区别。作者使用基于3x3x3的3D conv的带有全连接层的深度卷积神经网络对视频进行特征提取，同时验证了3x3x3的3D conv性能相对其他大小的3D conv更优秀。并且，训练好的C3D可以作为优秀的特征提取器，能够提取输入视频的特征，用作在其他任务上。作者认为，一个优秀的视频描述符应该有四个指标：通用
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。