2021-03-17

视频分类

  • 粗粒度到中等粒度,最后精细粒度
  • 关键技术:视觉/运动/音频特征表示和融合;视频大数据的快速准确处理
  • 数据集是关键发展条件
    • sport-1M 运动信息剧烈,可作为预训练数据集

双流网络方法

  • Motivation:两条视觉信息处理通道,一条侧重静态视觉场景/目标,另一条侧重运动。
  • TSN
  • 小结:通过神经网络同时建模静态图像和运动特征提取;在视频分类任务中,实现了深度学习方法对传统方法的超越;探索了视觉和运动信息的有效融合方法。

静态图像特征聚合

LRCN,性能不突出,方法具有开拓性。
ActionVLAD,视频类别由多个局部片段的行为/事件组成,图像序列和光流序列分别提取特征,特征拼接再融合分类(多实例学习是否可以加入其中)
Attention Cluster

  • 小结:CNN提取静态视觉信息,特征平均/LSTM/特征拼接/聚类建模不同视频帧之间的时序关系;结合视频特点设计更精细的网络结构,不断提升分类精度
    - 多层次信息
    - attention

3d卷积方法

  • C3D

  • P3D

  • I3D

  • 图像预训练提升性能
  • 小结:利用3d卷积提取视频特征更自然;

ECO

  • 主要工作
    提出eco网络,高效解决了视频长程相关性难以比较便宜的建模的问题,给出两种建模方式

运动增强的RGB分类

  • 主要工作: 采用跨模态只是蒸馏技术,在静态图像网络中encode运动信息;仅输入图像序列的情况下,可提取运动相关特征,取得更好结果;避免了复杂的光流计算,极大节约了计算时间。

SlowFast快慢信息结合网络

  • 主要工作:低帧率慢速通道捕获语义信息,高帧率轻量化设计的快速通道捕获快速变化的运动信息

光流表示学习(利用网络把光流学出来)

  • 主要工作:提出一种可学习的光流表示建模,避免光流计算繁重的计算量;光临模块模拟rv-l1光流计算方法;

时序金字塔(tpn)

  • 可作为提高性能的模块,加入网络

趋势:

  • 训练加速:
    挂在成熟模块
    避免使用复杂光流计算
  • 测试加速
    轻量级主干网
  • 设计轻量化的视频分类模型
    在这里插入图片描述
  • 引入新的信息模态(如:人体关键点分布)
    空间:图模型建模人土不同部位,人与物体的关系;时序:建模目标的中高层语义变化(如形状)
    引入刻画人体不同部位的动态骨架图,构建图模型。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值