视频理解论文综述

A Comprehensive Study of Deep Video Action Recognition

TSN网络是一个很经典的网络,如果不知道的自己查...

基于TSN的改进论文分了三大类

 

 

其他资料:

Temporal  Segment  Network

 

TSN提出的背景是当时业界做动作识别都是用 Two-stream CNN 和 C3D 比较多,它们都有个通病,就是需要密集采样视频帧,比如 C3D 中使用的是连续采样间隔的16 frames,这样当输入是个Long视频,计算量很庞大~ 故文中就提出了 稀疏时间采样策略

Pros:

通过 Sparse temporal sampling 可以扔掉很多冗余帧,初步满足实际应用的real-time要求

Cons:

  1. 对于Temporal特征欠考虑,更多地是 focus 在 apperance feature
  2. 文中无对比超参K值(Default K=3)的选取对结果的影响 及 Segment内部采样小片策略

Temporal Relation Network

致力于探索时间维度上的关系推理

通过时间维度上 Multi-scale 特征融合,来提高video-level鲁棒性

Pros:

更鲁棒的 action/activity 时空特征表达方式,即 MLP fusion + Multi-scale。

Cons:

Spatial 和 temporal 的联系还是太少,只在最后 embedding feature时用MLP融合了一下~~另应对比不同的fusion方式,如LSTM/GRU与MLP的性能差异~

ECO

使用 TSN 稀疏采样来减少不必要的冗余帧的前提下,对采样帧的 mid/high-level 进行 spatio-temporal 特征fusion,故比 TRN 只在最后特征层来做 temporal fusion的时空表达能力更强~

时空建模新文解读:用于高效视频理解的TSM

文章 first 提出了 temporal shift 这个视角(感觉像是搞硬件底层或芯片的人来跨界融合搞算法一样~~),通过人为地调度 temporal channel 的顺序让网络学到其交互的时空特征,非常地高效实用。

视频理解 S3D,I3D-GCN,SlowFastNet, LFB 参考也是这篇

slowfast 是 slow提取空间信息,有些不变化的信息,fast 提取动作信息,即按照频率的不同来分别提取

lfb 是 使用了个bank来存储  短的video feature 聚合成 long video feature (用了non-local网络聚合效果好)

 

CoST 

构造了Collaborative SpatioTemporal (CoST) operation,仅仅用2D conv即可捕获时空信息。

preview

视频理解之CoST, STM, E3D-LSTM 参考

 

Shift思想在视频理解中的近期进展

ICCV(CVPR) 2019 video action classification

综述论文介绍:MIT写的 Video Action Understanding: A Tutorial

部分参考:

各个任务的不同点

AR问题:视频主流问题模型

视频proposal提出问题:侧面的视频问题模型

存在 context和action frame 分不清的问题,主要解决这个问题,以及怎么更快更好的得到 action边界,即proposal也很重要 

对应目标检测 image

行为检测问题:不仅需要 得到proposal 还需要知道 class 的模型

弱监督和强监督

对应 目标分类问题 image

 

时空object检测问题模型:

 

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值