Abstract:
1、使用一个新的100万数据集Sports-1M dataset,对cnn在大规模视频分类方面进行了广泛的经验评估
2、利用空间信息、局部时空信息、提出多分辨率框架
Related work:
传统方法
1、利用传统特征提取算法提取low-level feature
2、利用FV、BOW等进行编码 向量
3、利用SVM等进行分类.、或者和卷积特征进行融合堆叠
Models:
Fusion结构-实际为堆叠
single frame - 静态特征
Late Fusion - 全局运动特征
Early Fusion -局部运动方向和速度
Slow Fusion - 在空间和时间维度上逐步获得更多的全局信息
多分辨率双流结构
Context stream背景流以一半的原始空间分辨率(89 89像素)接收下采样帧,
fovea stream而中央凹流以原始分辨率接收中心89 89区域。
结果分析
预测策略:多个Clip去平均预测结果
视频数据处理策略:
我们通过将70%的视频分配给训练集,10%分配给验证集,20%分配给测试集来分割数据集。此外,由于我们只从每个视频中随机收集了多达100个半秒的片段,视频平均长度为5分36秒。
个人看法:
1、是否可以考虑特征融合而不是堆叠
2、是否可以用CNN特征结合传统算法
3、视频剪辑片段有待进一步分析
4、是否可以利用中间层特征在结合机器学习来做分类