1.决策边界
支持向量机是一种分类算法,可以二分类,也可以多分类,重点在于决策边界的选取,要选出来离雷区最远的(雷区就是边界上的点),如下图所示,优先选择右边的图。即在满足分类的前提下,使得边界越宽越好。
2.距离的计算
要计算一些地雷离决策边界的距离,可以将决策边界看作一个平面,平面方程为W(T)x+b=0,两个x是平面上的点,W是平面的法向量。
要计算点到平面的距离,其实就是在平面是取一个点,然后计算出投影即可。经过推到得到以下距离公式:
3.数据标签定义
数据集已经给出,当X为正例的时候,Y=+1,当X为负例的时候,Y=-1,然后将决策方程变换一下。
4.优化目标
优化目标通俗解释就是找到一条线(w和b),使得离该线最近的点(雷区)最远
我们可以通过放缩变换,是得min右边的式子>=1,那么最小值就是1,于是就可以得到我们的目标函数,然后用拉格朗日乘子法进行计算得结果。
5.支持向量机名字由来
所有边界上的样本点0 ,对结果有影响,所有非边界上的点=0,对结果无影响,即只有边界上的样本点是有用的,所有边界上0是支持向量, 所有非边界上的点=0不是支持向量。
支持向量:真正发挥作用的数据点,值不为0的点。
如下图60个样本点和120个样本点实则构造出来的决策边界是一样的,因为边界上的点还是那几个点,其余不在边界上的点对结果是没有什么影响的。
6.软间隔问题
软间隔:有时候数据中有一些噪音点,如果考虑他们咱们的线就不太好了。
之前的方法我们要求要把两类点完全分的开,这个要求太严格了,我们可以放松一下,于是为了解决该问题,我们引入松弛因子。那么新的目标函数如下:
C是一个参数,当C趋于很大时,意味着分类严格不能有错误,当C趋于很小时,意味着可以有更大的错误容忍。
7.核变换
核变换:核变换用来解决低维不可分问题,既然低维的时候不可分,我们就把他映射到高维图像上。
使用核函数的好处就是可以在低维空间去完成高维度样本内积的计算。