视频分类
- 粗粒度到中等粒度,最后精细粒度
- 关键技术:视觉/运动/音频特征表示和融合;视频大数据的快速准确处理
- 数据集是关键发展条件
-
- sport-1M 运动信息剧烈,可作为预训练数据集
双流网络方法
- Motivation:两条视觉信息处理通道,一条侧重静态视觉场景/目标,另一条侧重运动。
- TSN
- 小结:通过神经网络同时建模静态图像和运动特征提取;在视频分类任务中,实现了深度学习方法对传统方法的超越;探索了视觉和运动信息的有效融合方法。
静态图像特征聚合
LRCN,性能不突出,方法具有开拓性。
ActionVLAD,视频类别由多个局部片段的行为/事件组成,图像序列和光流序列分别提取特征,特征拼接再融合分类(多实例学习是否可以加入其中)
Attention Cluster
- 小结:CNN提取静态视觉信息,特征平均/LSTM/特征拼接/聚类建模不同视频帧之间的时序关系;结合视频特点设计更精细的网络结构,不断提升分类精度
- 多层次信息
- attention
3d卷积方法
ECO
- 主要工作
提出eco网络,高效解决了视频长程相关性难以比较便宜的建模的问题,给出两种建模方式
运动增强的RGB分类
- 主要工作: 采用跨模态只是蒸馏技术,在静态图像网络中encode运动信息;仅输入图像序列的情况下,可提取运动相关特征,取得更好结果;避免了复杂的光流计算,极大节约了计算时间。
SlowFast快慢信息结合网络
- 主要工作:低帧率慢速通道捕获语义信息,高帧率轻量化设计的快速通道捕获快速变化的运动信息
光流表示学习(利用网络把光流学出来)
- 主要工作:提出一种可学习的光流表示建模,避免光流计算繁重的计算量;光临模块模拟rv-l1光流计算方法;
时序金字塔(tpn)
- 可作为提高性能的模块,加入网络
趋势:
- 训练加速:
挂在成熟模块
避免使用复杂光流计算 - 测试加速
轻量级主干网 - 设计轻量化的视频分类模型
- 引入新的信息模态(如:人体关键点分布)
空间:图模型建模人土不同部位,人与物体的关系;时序:建模目标的中高层语义变化(如形状)
引入刻画人体不同部位的动态骨架图,构建图模型。