Large-scale Video Classification with Convolutional Neural Networks

Abstract:

1、使用一个新的100万数据集Sports-1M dataset,对cnn在大规模视频分类方面进行了广泛的经验评估
2、利用空间信息、局部时空信息、提出多分辨率框架

Related work:

传统方法

1、利用传统特征提取算法提取low-level feature

2、利用FV、BOW等进行编码 向量

3、利用SVM等进行分类.、或者和卷积特征进行融合堆叠

Models:

Fusion结构-实际为堆叠

single frame - 静态特征

Late Fusion - 全局运动特征

Early Fusion -局部运动方向和速度

Slow Fusion - 在空间和时间维度上逐步获得更多的全局信息

多分辨率双流结构 

Context stream背景流以一半的原始空间分辨率(89 89像素)接收下采样帧,

fovea stream而中央凹流以原始分辨率接收中心89 89区域。

 结果分析

预测策略:多个Clip去平均预测结果

视频数据处理策略:

我们通过将70%的视频分配给训练集,10%分配给验证集,20%分配给测试集来分割数据集。此外,由于我们只从每个视频中随机收集了多达100个半秒的片段,视频平均长度为5分36秒。

个人看法:

1、是否可以考虑特征融合而不是堆叠

2、是否可以用CNN特征结合传统算法

3、视频剪辑片段有待进一步分析

4、是否可以利用中间层特征在结合机器学习来做分类

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值