视频分析模型（行为识别）：C3D

最新推荐文章于 2023-12-07 20:53:56 发布

米之炼金术师

最新推荐文章于 2023-12-07 20:53:56 发布

阅读量1.6w

点赞数 17

分类专栏：深度学习计算机视觉视频分析文章标签：计算机视觉深度学习神经网络算法卷积

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hehuaiyuyu/article/details/107052789

版权

C3D是一种3D卷积神经网络，专为视频分析设计，尤其在行为识别任务中表现出色。该模型利用3D卷积捕获时空信息，通过简单的线性分类器学习到的特征在多个基准上达到SOTA。C3D网络结构包含8个卷积层、5个池化层和全连接层，采用3×3×3的卷积核。此外，C3D还展示了在动作识别、场景识别和动作相似度标注等应用场景的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

C3D

文章目录

- C3D

1. 简介

论文：https://arxiv.org/abs/1412.0767v4

github：

原代码：https://github.com/facebook/C3D

TensorFlow：https://github.com/hx173149/C3D-tensorflow

1.1 背景

卷积神经网络（CNN）被广泛应用于计算机视觉中，包括分类、检测、分割等任务。

这些任务一般都是针对图像进行的，使用的是二维卷积（即卷积核的维度为二维）。而对于基于视频分析的问题，2D convolution不能很好得捕获时序上的信息，因此3D卷积就被提出来了。

3D卷积最早应该是在《3D convolutional neural networks for human action recognition》这片论文中被提出并用于行为识别的，而C3D是作为一个通用的网络提出的，论文中将其用于行为识别，场景识别，视频相似度分析等领域。

1.2 C3D特点

3D ConvNets比2D ConvNets更适用于时空特征的学习
对于3D ConvNet而言，在所有层使用3×3×3的小卷积核效果最好
通过简单的线性分类器学到的特征名为C3D(Convolutional 3D)，在4个不同的任务和6个基准上表现优秀，在2015年达到SOTA
特征紧凑：在UCF101数据集上得到52.8%的准确率只用了10维（PCA+SVM）
推断快，计算效率非常高，在论文中实验时就有300帧以上的FPS，使用 NVIDIA 1080 GPU 能达到600帧以上
概念简单，易于训练和使用

1.3 视频描述符

一个有效的视频描述符有四个属性：

通用性。可以表示不同类型的视频，同时具有可区分性。例如，网络视频可以是自然风光、运动、电视节目、电影、宠物、食物等
描述符必须是紧凑的。由于我们需要处理数百万的视频，一个紧凑的描述符有助于处理，存储和检索任务，更具可扩展性；
计算高效。因为在现实世界中，每一分钟都需要处理成千上万的视频；
实现简单。不使用复杂的特征编码方法和分类器，一个好的描述符即使是一个简单

最低0.47元/天解锁文章

米之炼金术师

博客等级

码龄10年

35
原创

174
点赞

1105
收藏

105
粉丝

关注

私信

热门文章

分类专栏

计算机视觉 9篇
深度学习 11篇
视频分析 1篇
数据集 1篇
FPGA 1篇
嵌入式 1篇
图像分割 8篇
C++ 14篇
面向对象(OOP) 14篇
C 1篇
编程思想 1篇
python 8篇
B站视频相关 1篇
数据结构与算法 1篇
Pycham 2篇
IDE 2篇

展开全部收起

最新评论

使用UNet进行图像分割（Pytorch搭建）
Chen_3201: 你好，你那里还有数据集吗
使用UNet进行图像分割（Pytorch搭建）
战斗的咸鱼: 请问为什么眼球是3呢？眼球只有前景和背景呀？
使用UNet进行图像分割（Pytorch搭建）
落雪之殇: 大佬可以分享一下用眼球毛细血管的测试数据集进行测试的代码吗，非常感谢
使用UNet进行图像分割（Pytorch搭建）
老～老常: 我的也是这个问题，兄弟找到原因了吗？
使用UNet进行图像分割（Pytorch搭建）
qiao_yx: if __name__ == '__main__':：这是一个常见的Python习惯用法。它表示当直接运行这个脚本时（而不是在其他脚本中导入它时），以下代码块将会执行。 t = Trainer(r"D:\datasets\VOCdevkit\VOC2012", r'./model.plt', r'./model_{}_{}.plt', img_save_path=r'./train_img')：这行代码创建了一个名为t的Trainer对象。Trainer是一个类，它接受一些参数来初始化。这里传递了四个参数：第一个参数是数据集的路径，r"D:\datasets\VOCdevkit\VOC2012" 表示数据集的根目录。第二个参数是模型的保存路径，r'./model.plt' 表示模型将会被保存到当前目录下的 model.plt 文件。第三个参数是一个字符串模板，r'./model_{}_{}.plt' 中的 {} 会被后续的值替代。这个模板将会在每个epoch结束时被用来保存模型，_{}_{}.plt 部分将会由epoch数和模型的损失值填充。 img_save_path=r'./train_img' 是另一个参数，它表示训练过程中生成的图像将会被保存到当前目录下的 train_img 文件夹中。 t.train(300)：这行代码调用了t对象的train方法，并传递了一个参数 300。这个方法似乎用来开始模型的训练过程，300 可能表示训练的总epoch数

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。