机器学习(十四)SVM总结

SVM直观理解总结

本文由 @lonelyrains出品,转载请注明出处。
文章链接: http://blog.csdn.net/lonelyrains/article/details/49509115

1、SVM初衷是基于逻辑回归的线性简化(基础)

改变代价函数整体的常系数并不影响梯度调优时 Θ 矩阵的选取,所以修正一下 λ ,并消掉了样本量 m 的系数。
Sigmoid阈值计算比较麻烦,而且偏向0.5的时候难以说明情况好坏,所以优化为线性简化。如果y实际值为1,则希望θTx1而不仅仅是 θTx0 ;反之希望 θTx1
故线性简化代价函数如下图:
将非线性阈值简化为线性阈值评价

2、SVM的LargeMargin边界(加工)

如何找到的是黑色分界线,而不是偏向正负样本两边的蓝色分界?如下图
LargeMargin
如果代价函数的前半部分为 0 ,则希望取minΘ12nj=0θ2j。为了使|| θ ||比较小以取得较小的代价函数,同时为了 θTx>>1 或者 θTx<<1 才能显示较强的区分性,所以希望 x θ的投影比较大,从而使 θ 的垂直方向为边界。因为 θ0=0 ,所以能取到 LargeMargin
如何找LargeMargin

3、SVM核函数(精髓)

线性不可分边界,如果纯粹用 x 的内部自变量的高维排列组合,会引起组合爆炸。如图:
组合爆炸
为了简化问题,取样本核为每一个样本。直观上理解,即每一个样本,都对所有样本求一次相似度。相似度评价函数即核函数。理论上样本随机正态分布,为了相似度满足完全一致时取1,而不一致时接近于0,所以对随机正态分布做了简单的修改。
相似度核函数替换原自变量
然后再用这些样本核来做对应的降维后的线性代价函数的自变量,便得到了直观上与对所有 x 一致的效果。

4、松弛变量参数调优(后期)

如果 C 取得很大,则对应于λ比较小,则容易出现过拟合。如图:
过拟合/欠拟合

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值