视频分析模型(行为识别):C3D

C3D是一种3D卷积神经网络,专为视频分析设计,尤其在行为识别任务中表现出色。该模型利用3D卷积捕获时空信息,通过简单的线性分类器学习到的特征在多个基准上达到SOTA。C3D网络结构包含8个卷积层、5个池化层和全连接层,采用3×3×3的卷积核。此外,C3D还展示了在动作识别、场景识别和动作相似度标注等应用场景的有效性。
摘要由CSDN通过智能技术生成

C3D

1. 简介

论文:https://arxiv.org/abs/1412.0767v4

github

原代码:https://github.com/facebook/C3D

TensorFlow:https://github.com/hx173149/C3D-tensorflow

1.1 背景

卷积神经网络(CNN)被广泛应用于计算机视觉中,包括分类、检测、分割等任务。

这些任务一般都是针对图像进行的,使用的是二维卷积(即卷积核的维度为二维)。而对于基于视频分析的问题,2D convolution不能很好得捕获时序上的信息,因此3D卷积就被提出来了。

3D卷积 最早应该是在 《3D convolutional neural networks for human action recognition》 这片论文中被提出并用于行为识别的,而C3D是作为一个通用的网络提出的,论文中将其用于行为识别,场景识别,视频相似度分析等领域。

1.2 C3D特点
  1. 3D ConvNets比2D ConvNets更适用于时空特征的学习
  2. 对于3D ConvNet而言,在所有层使用3×3×3的小卷积核效果最好
  3. 通过简单的线性分类器学到的特征名为C3D(Convolutional 3D),在4个不同的任务和6个基准上表现优秀,在2015年达到SOTA
  4. 特征紧凑:在UCF101数据集上得到52.8%的准确率只用了10维(PCA+SVM)
  5. 推断快,计算效率非常高,在论文中实验时就有300帧以上的FPS,使用 NVIDIA 1080 GPU 能达到600帧以上
  6. 概念简单,易于训练和使用
1.3 视频描述符

一个有效的视频描述符有四个属性:

  1. 通用性。可以表示不同类型的视频,同时具有可区分性。例如,网络视频可以是自然风光、运动、电视节目、电影、宠物、食物等
  2. 描述符必须是紧凑的。由于我们需要处理数百万的视频,一个紧凑的描述符有助于处理,存储和检索任务,更具可扩展性;
  3. 计算高效。因为在现实世界中,每一分钟都需要处理成千上万的视频;
  4. 实现简单。不使用复杂的特征编码方法和分类器,一个好的描述符即使是一个简单
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值