读 P. Dollar, V. Rabaud, G. Cottrell, and S. Belongie. Behavior Recognition via Sparse Spatio-Temporal Features. VS-PETS ,2005.
这篇文章提出了一种经典的兴趣点检测器——cuboid detector。文章主要分为以下几个部分:
Detector
作者的思想是需要将图片的空间检测算子扩展到视频的时空检测算子。但是在此之前得到扩展只有3D Harris检测器。Harris角点检测器检测出的实际上是正在变成相反运动方向的点。比如挥手时,手在最左端和最右端的点;走路时,脚的最高点。如果数据集包含具有这样特征的点,那么在这个数据集上做识别就能得到较好的识别结果。KTH数据集包含:walking,jogging,running,boxing,clapping,waving等六种动作,这六种动作都具有上述特点,这使得在KTH数据集上使用Harris角点检测器做测试,能够得到较好的识别率。
这篇文章的作者希望提出一种detector,使得能够在不具有上述特点,或不是很明显的具有上述特点的数据集上能够得到较好的识别率。在其他的数据集上,比如啮齿类动物的行为,不同的面部表情,我们发现即使是当我们认为感兴趣的动作发生时,用Harris角点检测器检测出的角点非常少。虽然我们希望得到稀疏的特征,但当产生的特征过于稀疏时,会对识别产生阻碍。
除了时空角点具有稀疏性这个问题外,时空角点是否真的是动作识别所真正需要的特征也是一个问题。我们感兴趣的是得到的特征能否最大化的区分不同的行为。例如,马咀嚼干草,自行车的轮胎旋转,这两个例子中的行为都可以被提取出来当特征。