SVM算法原理
SVM是什么
低维不可分时,转化为高维划分
SVM推导
决策函数的推导
距离的定义:确信度
上述推导中得到的超平面面只是可以有很多,那么哪个是最佳的超平面呢?
计算每个点到超平面的距离,选择到超平面最近的点,计算这个点到某个超平面A有最大距离,那么这个超平面A就是最佳超平面:
1、min:所有样本点中找到距离超平面最小的样本点
2、max:找到某个超平面A,使最小距离样本点到某个超平面A有最大距离,A就是最佳超平面
||ω||:L2范数
目标函数推导
增加yi,表示正负分类。
目标函数求解
目标函数是求最大值,约束条件是>=0,要用拉格朗日乘子法时,要转化为目标函数要转为为求最小值,约束条件转化为<=0。按下图修改目标函数和约束条件:
a的最大值和w、b最小值不好求,但拉格朗日有一个对偶性质,可以转化最大最小值,证明比较麻烦,这里不作证明。
将求导后的结果代入回L(w,b,a),得到下图:
φ(x)和y就是原始数据,b= y-ωx
ω在之前已经求得,
那么max(α)如何求呢
max(A-B) 可以转化为min(B-A)
SVM计算实例
举例求解α
坐标轴上有两类点:
正例点(黑色)–> x1,x2
负例点(红色)–> x3
φ(x)就是x,把数据点代入公式
(当i=j= 1,yi= yj = 1,当i=j=2的yi= yj = 2;xi·xj就是求矩阵内积)
(当i=2,j=1,yi =2,yj =1;当i=1,j=2,yi =1,yj=2,得到xi和xj的内积是一样的 )
认识支持向量的作用
推导和计算过程补充
答疑:为什么放缩后大于等于
答疑:为什么||ω||d的值不影响结果
软间隔:较少噪音影响,提高泛化能力
主要是针对噪音数据提出来的,如下图,显然黑色的超平面优于红色的。