行为识别笔记：C3D network-用于视频特征提取的3维卷积网络

最新推荐文章于 2024-07-03 17:41:54 发布

Will-Lin

最新推荐文章于 2024-07-03 17:41:54 发布

阅读量5.8w

点赞数 20

分类专栏：计算机视觉机器学习文章标签：计算机视觉神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wzmsltw/article/details/61192243

版权

C3D网络是一种3D卷积神经网络，用于视频分析任务，如行为识别、场景识别和动作相似度标注。通过3D卷积操作，C3D能捕获时序信息，网络结构包括8次卷积和4次池化操作。实验结果显示在UCF101等数据库上取得良好效果，且运行速度快。

摘要由CSDN通过智能技术生成

注：本文首发在微信公众号-极市平台。如需转载，请联系微信Extreme-Vision

卷积神经网络（CNN）近年被广泛应用于计算机视觉中，包括分类、检测、分割等任务。这些任务一般都是针对图像进行的，使用的是二维卷积（即卷积核的维度为二维）。而对于基于视频分析的问题，2D convolution不能很好得捕获时序上的信息。因此3D convolution就被提出来了。3D convolution 最早应该是在[1]中被提出并用于行为识别的，本篇文章则主要介绍下面这篇文章 C3D[2]，C3D network是作为一个通用的网络提出的，文章中将其用于行为识别，场景识别，视频相似度分析等领域。

可以访问C3D network的项目主页或是github获得其项目代码及模型，项目基于caffe实现。最近作者还更新了残差网络结构的新C3D模型，但是还没有放出对应的论文，暂时不做讨论。

2D 与 3D 卷积操作

首先简要介绍一下2D与3D卷积之间的区别。a)和b)分别为2D卷积用于单通道图像和多通道图像的情况（此处多通道图像可以指同一张图片的3个颜色通道，也指多张堆叠在一起的图片，即一小段视频），对于一个滤波器，输出为一张二维的特征图，多通道的信息被完全压缩了。而c)中的3D卷积的输出仍然为3D的特征图。

现在考虑一个视频段输入，其大小为 $c*l*h*w$ ,其中c为图像通道(一般为3),l为视频序列的长度，h和w分别为视频的宽与高。进行一次kernel size为 3∗3∗

最低0.47元/天解锁文章

关注

20
点赞
踩
129

收藏

觉得还不错? 一键收藏
44
评论
行为识别笔记：C3D network-用于视频特征提取的3维卷积网络

注：本文首发在微信公众号-极市平台。如需转载，请联系微信Extreme-Vision卷积神经网络（CNN）近年被广泛应用于计算机视觉中，包括分类、检测、分割等任务。这些任务一般都是针对图像进行的，使用的是二维卷积（即卷积核的维度为二维）。而对于基于视频分析的问题，2D convolution不能很好得捕获时序上的信息。因此3D convolution就被提出来了。3D convolution 最早应
复制链接

扫一扫

专栏目录

评论 44

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。