视频理解论文综述

最新推荐文章于 2024-05-17 09:47:19 发布

一只想飞的锦鲤

最新推荐文章于 2024-05-17 09:47:19 发布

阅读量1.9k

点赞数

分类专栏：多媒体多模态

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37847767/article/details/111162295

版权

多媒体多模态专栏收录该内容

4 篇文章 0 订阅

订阅专栏

A Comprehensive Study of Deep Video Action Recognition

TSN网络是一个很经典的网络，如果不知道的自己查...

基于TSN的改进论文分了三大类：

其他资料：

Temporal Segment Network

TSN提出的背景是当时业界做动作识别都是用 Two-stream CNN 和 C3D 比较多，它们都有个通病，就是需要密集采样视频帧，比如 C3D 中使用的是连续采样间隔的16 frames，这样当输入是个Long视频，计算量很庞大~ 故文中就提出了 稀疏时间采样策略

Pros:

通过 Sparse temporal sampling 可以扔掉很多冗余帧，初步满足实际应用的real-time要求

Cons:

对于Temporal特征欠考虑，更多地是 focus 在 apperance feature
文中无对比超参K值（Default K=3）的选取对结果的影响及 Segment内部采样小片策略

Temporal Relation Network

致力于探索时间维度上的关系推理

通过时间维度上 Multi-scale 特征融合，来提高video-level鲁棒性

Pros:

更鲁棒的 action/activity 时空特征表达方式，即 MLP fusion + Multi-scale。

Cons:

Spatial 和 temporal 的联系还是太少，只在最后 embedding feature时用MLP融合了一下~~另应对比不同的fusion方式，如LSTM/GRU与MLP的性能差异~

ECO

使用 TSN 稀疏采样来减少不必要的冗余帧的前提下，对采样帧的 mid/high-level 进行 spatio-temporal 特征fusion，故比 TRN 只在最后特征层来做 temporal fusion的时空表达能力更强~

时空建模新文解读：用于高效视频理解的TSM

文章 first 提出了 temporal shift 这个视角（感觉像是搞硬件底层或芯片的人来跨界融合搞算法一样~~），通过人为地调度 temporal channel 的顺序让网络学到其交互的时空特征，非常地高效实用。

视频理解 S3D，I3D-GCN，SlowFastNet, LFB 参考也是这篇

slowfast 是 slow提取空间信息，有些不变化的信息，fast 提取动作信息，即按照频率的不同来分别提取

lfb 是使用了个bank来存储短的video feature 聚合成 long video feature （用了non-local网络聚合效果好）

CoST

构造了Collaborative SpatioTemporal (CoST) operation，仅仅用2D conv即可捕获时空信息。

preview

视频理解之CoST, STM, E3D-LSTM 参考

Shift思想在视频理解中的近期进展

ICCV（CVPR） 2019 video action classification

综述论文介绍：MIT写的 Video Action Understanding: A Tutorial

部分参考：

各个任务的不同点

AR问题：视频主流问题模型

视频proposal提出问题：侧面的视频问题模型

存在 context和action frame 分不清的问题，主要解决这个问题，以及怎么更快更好的得到 action边界，即proposal也很重要

对应目标检测 image

行为检测问题：不仅需要得到proposal 还需要知道 class 的模型

弱监督和强监督

对应目标分类问题 image

时空object检测问题模型：

一只想飞的锦鲤

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
视频理解论文综述

Temporal Segment NetworkTSN提出的背景是当时业界做动作识别都是用 Two-stream CNN 和 C3D 比较多，它们都有个通病，就是需要密集采样视频帧，比如 C3D 中使用的是连续采样间隔的16 frames，这样当输入是个Long视频，计算量很庞大~ 故文中就提出了稀疏时间采样策略Pros:通过 Sparse temporal sampling 可以扔掉很多冗余帧，初步满足实际应用的real-time要求Cons:对于Temporal特征欠考虑...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。