最近我在看一篇通过机器学习来进行动作识别的文章,之前没怎么接触过,所以有大量概念需要弄清楚。
BoW:bag of words
SIFT:Scale-invariant feature transform
SIFT算子是DavidGLowe在2004年总结了现有的基于不变量技术的特征检测方法的基础上,提出的一种基于尺度空间的,对图像缩放、旋转甚至仿射变换保持不变性的算子。SIFT特征是图像的局部特征,该特征对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性。总之,该方法用来在视频或者图像中提取保持不变性的一些特征。SIFT特征提取算法包括4个关键步骤:尺度空间的极值检测;精确定位特征点的位置;确定特征点主方向;生成特征点向量。最后得到的特征点是基于尺度空间、对图像缩放、旋转甚至仿射变换保持不变性的算子。
SVM:Support Vector Machines
该论文是SIFT与SVM的结合,并且对SIFT的descriptor进行了改进,由二维拓展到了三维,而如何进行这种拓展是本文的核心内容。总之,目前我的理解是SIFT+SVM的核心=把库里的动作用SIFT训练出descriptors,然后变成bag of words,新的需要匹配的视频或图像通过代入SVM+bag of words进行分类。
新的3D SIFT descriptor的第三维就是时间。下面是由2D到3D的拓展示例。