读 Laptev, I. and Lindeberg, T. Interest points in space-time. ICCV ,2003. Laptev, I. On space-time interest points. IJCV, 2005.
这是两篇是关于时空兴趣点的经典文章,其算法称为STIP算法。文章主要分为以下几个部分:
detector
本文利用Harris(和Forstner)角点检测器检测时空兴趣点,即在图像局部区域空间和时间轴上像素值都有显著变化的点作为时空兴趣点。该检测器能够检测出关节的运动(articulated motion),能够检测出物体的分离和融合,不会检测出在时间轴上做匀速直线运动的点。除此之外,还能检测出一些噪声点,例如行人的外套上的一些点也会被当成兴趣点。
检测出的兴趣点与选取的时间尺度与空间尺度有关,尺度与动作发生的范围(人本身的行为特点)有关。为了使该检测器能够自适应尺度变化,先对视频在时间和空间做了尺度变换,即采用了不同尺度的高斯滤波函数。
时空兴趣点的求解采用如下思想:把视频看作三维的函数,寻找到一个映射函数,通过这个映射函数,将三维视频的数据映射到一维空间中,然后通过求此一维空间的局部极大值的点,而这些点也就是我们所需要的兴趣点。类比经典的Harris算法,这里扩展了一个时间维,采用高斯窗口,同理后面转换为计算一个3*3的矩阵的3个特征值,最后用这3个特征值的和以及积构成一个响应函数H,对H设定阈值来计算对应点是否为兴趣点。具体计算过程如下:
首先进行尺度变换,将视频转换为线性尺度空间表示:
其中: