读 I. Laptev, M. Marszałek, C. Schmid, and B. Rozenfeld. Learning realistic human actions from movies. In CVPR, 2008.
这篇文章的目的是提出一种在现实和多变的视频中识别动作的方法。鉴于手动标注视频有很大的困难,作者提出一种在电影中对人体动作类型进行自动标注的方法。这种方法是基于script alignment and text classification来对动作进行标注的。另外作者还把空间金字塔模型扩展成了时空金字塔。下面介绍时空金字塔。
首先,使用Harris角点检测器检测兴趣点。
然后,用多尺度的方法在多个时空尺度上提取特征