[行为检测|论文解读]行为检测调研综述

计算机视觉 行为检测 视频理解



1. 背景

视频理解是目前计算机视觉领域非常热,也是极具挑战力的一个方向。视频理解方向包含众多的子研究方向,以CVPR组织的ACTIVITYNET为例,2017年总共有5个Task被提出。

  • Task1:未修剪视频分类(Untrimmed Video Classification)。这个有点类似于图像的分类,未修剪的视频中通常含有多个动作,而且视频很长。有许多动作或许都不是我们所关注的。所以这里提出的Task就是希望通过对输入的长视频进行全局分析,然后软分类到多个类别。

  • Task2:修剪视频识别(Trimmed Action Recognition)。这个在计算机视觉领域已经研究多年,给出一段只包含一个动作的修剪视频,要求给视频分类。

  • Task3:时序行为提名(Temporal Action Proposal)。这个同样类似于图像目标检测任务中的候选框提取。在一段长视频中通常含有很多动作,这个任务就是从视频中找出可能含有动作的视频段。

  • Task4:时序行为定位(Temporal Action Localization)。相比于上面的时序行为提名而言,时序行为定位于我们常说的目标检测一致。要求从视频中找到可能存在行为的视频段,并且给视频段分类。

  • Task5:密集行为描述(Dense-Captioning Events)。之所以称为密集行为描述,主要是因为该任务要求在时序行为定位(检测)的基础上进行视频行为描述。也就是说,该任务需要将一段未修剪的视频进行时序行为定位得到许多包含行为的视频段后,对该视频段进行行为描述。比如:man playing a piano

而该调研报告主要聚焦于行为识别和行为检测。也就是上述任务描述中的Task2和Task4.

2. 国内外研究现状

在该方向上,国内有许多机构和学校也是主要的研究者,所以这里不再区分国内外,直接描述当前的研究现状。目前为止ActivityNet已经举办两届,下面是2017年的State-of-art。


这里写图片描述

3. 行为分类

行为分类(Trimmed Action Recognition)是视频理解方向很重要的一个问题,至今为止已经研究多年。深度学习出来后,该问题被逐步解决,现在在数据集上已经达到了比较满意的效果。如第2章所述 。行为分类问题简单的来说就是:对于给定的分割好的视频片段,按照其中的人类行为进行分类。比如女孩化妆、男生打球、跑步等等。该任务不需要确定视频中行为的开始时间和结束时间。

在深度学习出现之前,表现最好的算法是iDT [1][2] [ 1 ] [ 2 ] ,之后的工作基本上都是在iDT方法上进行改进。IDT的思路是利用光流场来获得视频序列中的一些轨迹,再沿着轨迹提取HOF,HOG,MBH,trajectory4中特征,其中HOF基于灰度图计算,另外几个均基于dense optical flow(密集光流计算)。最后利用FV(Fisher Vector)方法对特征进行编码,再基于编码训练结果训练SVM分类器。深度学习出来后,陆续出来多种方式来尝试解决这个问题,包含:Two-Stream [3][4] [ 3 ] [ 4 ] 、C3D(Convolution 3 Dimension) [6] [ 6 ] ,还有RNN [7] [ 7 ] 方向。

3.1 研究难点

行为识别虽然研究多年,但是至今还是处于实验室数据集测试阶段,没有真正的实用化和产业化。由此可见该任务目前还是没有非常鲁棒的解决方案。下面简单阐述一下本人对于该问题的看法。

任务特点:行为识别和图像分类其实很相似,图像分类是按照图像中的目标进行软分类,行为识别也类似。最开始的时候类似于UCF数据集,都是采用的单标签,也就是一段视频只对应一个标签。现在CPVR举办的Activitynet(Kinetics 数据集)每段视频中包含多个标签。相比于图像分类,视频多了一个时序维度,而这个问题恰恰是目前计算机领域令人头疼的问题。

任务难点

  • 如上所说,行为识别处理的是视频,所以相对于图像分类来说多了一个需要处理的时序维度。
  • 行为识别还有一个痛点是视频段长度不一,而且开放环境下视频中存在多尺度、多目标、摄像机移动等众多的问题。这些问题都是导致行为识别还未能实用化的重要原因。

3.2 数据集介绍

目前还比较常用的数据库主要有3个,UCF101、HMDB51和Kinetics.


这里写图片描述

3.3 传统方法

在深度学习之前,iDT(improved Dense Trajectories)方法是最经典的一种方法。虽然目前基于深度学习的方法已经超过iDT,但是iDT的思路依然值得学习,而且与iDT的结果做ensemble后总能获得一些提升。iDT的思路主要是在《Dense Trajectories and Motion Boundary Descriptors for Action Recognition》和《Action Recognition with Improved Trajectories》两篇文章中体现。

下面本文简单的介绍DT(Dense Trajectories)方法。

3.3.1 密集采样特征点

如下图3.1所示,iDT算法框架主要包含:密集采样特征点,特征轨迹跟踪和基于轨迹的特征提取三个部分。


这里写图片描述
图3.1 iDT算法框架图

DT方法通过网格划分的方式在多尺度图像中分别密集采样特征点。

3.3.2 轨迹与轨迹描述子

假设上一步骤中密集采样到的某个特征点的坐标为 Pt=(xt,yt) P t = ( x t , y t ) , 再用下面的公式计算该特征点在下一帧图像中的位置。

Pt+1=(xt+1,y
  • 53
    点赞
  • 276
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值