机器学习之SIFT&SVM

最新推荐文章于 2024-08-16 07:39:16 发布

lskyne

最新推荐文章于 2024-08-16 07:39:16 发布

阅读量3.2k

点赞数

分类专栏： Machine Learning

Machine Learning 专栏收录该内容

39 篇文章 4 订阅

订阅专栏

最近我在看一篇通过机器学习来进行动作识别的文章，之前没怎么接触过，所以有大量概念需要弄清楚。

BoW：bag of words

SIFT：Scale-invariant feature transform

SIFT算子是DavidGLowe在2004年总结了现有的基于不变量技术的特征检测方法的基础上，提出的一种基于尺度空间的，对图像缩放、旋转甚至仿射变换保持不变性的算子。SIFT特征是图像的局部特征，该特征对旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的稳定性。总之，该方法用来在视频或者图像中提取保持不变性的一些特征。SIFT特征提取算法包括4个关键步骤:尺度空间的极值检测;精确定位特征点的位置;确定特征点主方向;生成特征点向量。最后得到的特征点是基于尺度空间、对图像缩放、旋转甚至仿射变换保持不变性的算子。

SVM：Support Vector Machines

支持向量机，主要用来解决“二类问题”，是一种分类器，但是多类问题可以转化成二类问题。支持向量机(SuPPortVectorMachine，SVM)是一种基于结构风险最小化原则(Stocture形skMinimization，SRM)的通用学习算法，它的基本思想是在样本输入空间或特征空间构造出一个最优超平面，使得超平面到两类样本集之间的距离达到最大，从而取得最好的泛化能力。构造最优超平面可以转化为一个二次规划问题。不同于神经网络，支持向量机的解是全局最优的，而且支持向量机不需要人工设计网络结构。

该论文是SIFT与SVM的结合，并且对SIFT的descriptor进行了改进，由二维拓展到了三维，而如何进行这种拓展是本文的核心内容。总之，目前我的理解是SIFT+SVM的核心=把库里的动作用SIFT训练出descriptors，然后变成bag of words，新的需要匹配的视频或图像通过代入SVM+bag of words进行分类。