[行为检测|论文解读]行为检测调研综述

最新推荐文章于 2023-08-26 18:01:08 发布

置顶

背包_十年

最新推荐文章于 2023-08-26 18:01:08 发布

阅读量2.6w

点赞数 53

分类专栏： faicutly 文章标签：计算机视觉行为检测行为识别视频分析与理解

本文链接：https://blog.csdn.net/neu_chenguangq/article/details/79504214

版权

本文详细探讨了行为识别和行为检测在计算机视觉领域的最新进展，包括传统方法如iDT、Two-Stream CNN、C3D网络以及RNN方法。特别强调了时序维度处理的挑战，并介绍了TSN、C3D和RPN网络结构。此外，文章讨论了行为检测的难点，如时序信息处理、边界不明确和时间跨度大，并列举了常用的数据集THUMOS 2014和ActivityNet。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

计算机视觉行为检测视频理解

1. 背景
2. 国内外研究现状
3. 行为分类
4 行为检测
5 参考文献

1. 背景

视频理解是目前计算机视觉领域非常热，也是极具挑战力的一个方向。视频理解方向包含众多的子研究方向，以CVPR组织的ACTIVITYNET为例，2017年总共有5个Task被提出。

Task1：未修剪视频分类(Untrimmed Video Classification)。这个有点类似于图像的分类，未修剪的视频中通常含有多个动作，而且视频很长。有许多动作或许都不是我们所关注的。所以这里提出的Task就是希望通过对输入的长视频进行全局分析，然后软分类到多个类别。
Task2：修剪视频识别(Trimmed Action Recognition)。这个在计算机视觉领域已经研究多年，给出一段只包含一个动作的修剪视频，要求给视频分类。
Task3：时序行为提名(Temporal Action Proposal)。这个同样类似于图像目标检测任务中的候选框提取。在一段长视频中通常含有很多动作，这个任务就是从视频中找出可能含有动作的视频段。
Task4：时序行为定位(Temporal Action Localization)。相比于上面的时序行为提名而言，时序行为定位于我们常说的目标检测一致。要求从视频中找到可能存在行为的视频段，并且给视频段分类。
Task5：密集行为描述(Dense-Captioning Events)。之所以称为密集行为描述，主要是因为该任务要求在时序行为定位(检测)的基础上进行视频行为描述。也就是说，该任务需要将一段未修剪的视频进行时序行为定位得到许多包含行为的视频段后，对该视频段进行行为描述。比如：man playing a piano

而该调研报告主要聚焦于行为识别和行为检测。也就是上述任务描述中的Task2和Task4.

2. 国内外研究现状

在该方向上，国内有许多机构和学校也是主要的研究者，所以这里不再区分国内外，直接描述当前的研究现状。目前为止ActivityNet已经举办两届，下面是2017年的State-of-art。

3. 行为分类

行为分类(Trimmed Action Recognition)是视频理解方向很重要的一个问题，至今为止已经研究多年。深度学习出来后，该问题被逐步解决，现在在数据集上已经达到了比较满意的效果。如第2章所述。行为分类问题简单的来说就是：对于给定的分割好的视频片段，按照其中的人类行为进行分类。比如女孩化妆、男生打球、跑步等等。该任务不需要确定视频中行为的开始时间和结束时间。

在深度学习出现之前，表现最好的算法是iDT $^{[1][2]}$ ，之后的工作基本上都是在iDT方法上进行改进。IDT的思路是利用光流场来获得视频序列中的一些轨迹，再沿着轨迹提取HOF，HOG，MBH，trajectory4中特征，其中HOF基于灰度图计算，另外几个均基于dense optical flow(密集光流计算)。最后利用FV(Fisher Vector)方法对特征进行编码，再基于编码训练结果训练SVM分类器。深度学习出来后，陆续出来多种方式来尝试解决这个问题，包含：Two-Stream $^{[3][4]}$ 、C3D(Convolution 3 Dimension) $^{[6]}$ ，还有RNN $^{[7]}$ 方向。

3.1 研究难点

行为识别虽然研究多年，但是至今还是处于实验室数据集测试阶段，没有真正的实用化和产业化。由此可见该任务目前还是没有非常鲁棒的解决方案。下面简单阐述一下本人对于该问题的看法。

任务特点：行为识别和图像分类其实很相似，图像分类是按照图像中的目标进行软分类，行为识别也类似。最开始的时候类似于UCF数据集，都是采用的单标签，也就是一段视频只对应一个标签。现在CPVR举办的Activitynet(Kinetics 数据集)每段视频中包含多个标签。相比于图像分类，视频多了一个时序维度，而这个问题恰恰是目前计算机领域令人头疼的问题。

任务难点

如上所说，行为识别处理的是视频，所以相对于图像分类来说多了一个需要处理的时序维度。
行为识别还有一个痛点是视频段长度不一，而且开放环境下视频中存在多尺度、多目标、摄像机移动等众多的问题。这些问题都是导致行为识别还未能实用化的重要原因。

3.2 数据集介绍

目前还比较常用的数据库主要有3个，UCF101、HMDB51和Kinetics.

3.3 传统方法

在深度学习之前，iDT(improved Dense Trajectories)方法是最经典的一种方法。虽然目前基于深度学习的方法已经超过iDT，但是iDT的思路依然值得学习，而且与iDT的结果做ensemble后总能获得一些提升。iDT的思路主要是在《Dense Trajectories and Motion Boundary Descriptors for Action Recognition》和《Action Recognition with Improved Trajectories》两篇文章中体现。

下面本文简单的介绍DT(Dense Trajectories)方法。