支持向量机是属于原创性、非组合的具有明显直观几何意义的分类算法,具有较高的准确率。
使用SVM算法的思路:(1)简单情况,线性可分情况,把问题转化为一个凸优化问题,可以用拉格朗日乘子法简化,然后用既有的算法解决;(2)复杂情况,线性不可分,用核函数将样本投射到高维空间,使其变成线性可分的情形,利用核函数来减少高纬度计算量。
一、SVM相关基本概念
分割超平面
设C和D为两不相交的凸集,则存在超平面P,P可以将C和D分离。
两个集合的距离,定义为两个集合间元素的最短距离。
做集合C和集合D最短线段的垂直平分线。
(图像摘自七月算法)
但是, 如何定义两个集合的"最优"分割超平面?找到集合“边界”上的若干点,以这些点为“基础”计算超平面的方向,以两个集合边界上的这些点的平均作为超平面的“截距”。这些点被称作支持向量,点是可用向量方式表示。
(图像取自七月算法)
输入数据
假设给定一个特征空间上的训练数据集
其中,,为第i个实例(若n>1,即x是多维度,具有多个属性特征,此时为向量);
为的类标记,当为+1时,称为正例,当为-1时,称为负例。
线性可分支持向量机<