作者:极链AI研究院 徐宝函
视频的理解与识别是计算机视觉的基础任务之一。随着视频设备和网络的普通,视频理解也吸引了越来越多研究者的关注。而识别视频中的动作则是其中一个充满挑战而又具有较高实际应用价值的任务。相比图像来说,视频内容和背景更加复杂多变,不同的动作类别之间具有相似性,而相同的类别在不同环境下又有着不同的特点。此外,由于拍摄造成的遮挡、抖动、视角变化等也为动作识别进一步带来了困难。在实际应用中,精确的动作识别有助于舆情监控,广告投放,以及很多其他视频理解相关的任务。
与图像识别相比,视频分析需要更大量数据。早期的数据集KTH[1],Weizmann[2]等仅由演员表演固定的几个动作,如走路,慢跑等。之后,较大规模的数据集如UCF101[3]等由网络视频组成,具体动作类别则由志愿者人工标注完成。目前,研究者发布了更大规模的数据集,例如Kinetics[4]包含了上百类动作以及几十万视频(如图1所示示例),虽然相比实际情况仍不够全面,但也对动作识别的研究有了极大的帮助。
图1. Kinetics数据集的示例视频帧
视频动作识别目前常用的技术可以大致分为如下几类:
1. 基于人工特征的视频动作识别
早期的动作识别主要基于兴趣点的检测和表示。梯度直方图[5],时空兴趣点检测[6],以及光流直方图[7]等都用于提取图像和时序的特征表示。与图像相比,视频蕴含了大量的运动信息,为了更好的利用运动信息,Heng等人提出了密集轨迹的特征[8],密集的提取和追踪光流中每个像素特征