机器学习之SVM（算法详细推导）

Diana003

已于 2022-01-22 14:25:12 修改

阅读量857

点赞数

分类专栏：机器学习理论推导文章标签：支持向量机机器学习算法

于 2022-01-22 14:19:01 首次发布

本文链接：https://blog.csdn.net/Diana003/article/details/122637025

版权

机器学习理论推导专栏收录该内容

9 篇文章 0 订阅

订阅专栏

SVM

目标

寻找最大边缘超平面，即使得支持向量距离超平面距离尽可能大

支持向量

样本中距离超平面最近的一些点，SVM的决策边界完全由支持向量决定，因此当将能够被正确分类且远离决策边界的样本点加入到训练数据中，也不会影响改变SVM原来确定的决策边界。

最优化问题

最大化两间隔边界之间的距离

$max_w~~~~~~~\frac{2}{||w||}\\\Rightarrow min_w~~~\frac{1}{2}||w||\\ s.t. ~~~~~y_i(w^Tx_i+b)\geq 1$

对偶问题

$max_{\lambda_i}~~~~~~~~~ f(\lambda_i)\\=> max_{\lambda_i}~~-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\lambda_i\lambda_jy_iy_j(x_i.x_j)+\sum_{i=1}^n\lambda_i\\ s.t.~~~~~\sum_{i=1}^n\lambda_iy_i=0,~~~\lambda_i\geq0$

求支撑向量

求 $\frac{\partial f(\lambda_i)}{\partial \lambda_i}=0$ 得到 $\lambda_i$ ，然后验证 $\sum_{i=1}^n \lambda_iy_i=0$ ，如果满足则 $\lambda_i>0$ 对应的样本就是支撑向量；否则分类讨论，即令其中一个 $\lambda_i=0$ ，求解剩余的 $\lambda_j$ 然后比较每次求得的 $f(\lambda_i)$ 选择 $f(\lambda_i)$ 最小时候对应的 $\lambda_i$ ，且 $\lambda_i>0$ 对应的样本就是支撑向量。

求分界线

最优权重

$w^*=\sum_{i=1}^n\lambda_jy_ix_i$

其中 $x_i$ 是列向量

截距项

通过将任意支撑向量X(+1)，代入 $\sum_{i=1}^K\sum_{j=1}^nw_ix_{ji}+b=1$ 得到

或通过将任意支撑向量X(-1)，代入 $\sum_{i=1}^K\sum_{j=1}^nw_ix_{ji}+b=-1$ 得到

最优分界线

$\sum_{i=1}^K\sum_{j=1}^nw_ix_{ji}+b=0$

运用梯度下降方法求解SVM

线性SVM

改进的线性SVM目标函数——软间隔

$min~~~~~\frac{1}{2}||w||_2^2+C\#K$

其中C表示错分的惩罚力度，#K表示所分点个数，即 $K=\{i$ | $y_i(w^Tx_i+b)<1\}$

相当于
$min~~~~~\frac{1}{2}||w||_2^2+C \sum_{i\in K}(1-y_i(w^Tx_i+b))$

参数更新

$~~w:=w-\alpha(w-C\sum_{i\in K}y_ix_i)\\ b:=b+\alpha C\sum_{i\in K}y_i$

非线性SVM

非线性SVM目标函数

$min~~~~~\frac{1}{2}||w||_2^2+C \sum_{i\in K}(1-y_i(w^T\phi(x_i)))\\ K=\{i|y_i(w^T\phi(x_i))<1\},~~~~~~~w=\sum_{i=1}^n\lambda_iy_i\phi(x_i)$

令 $\alpha_i=\lambda_iy_i$ 故化简为

$min~~~~~\frac{1}{2}\sum_{i,j}\alpha_i\alpha_j\phi(x_i)^T\phi(x_j)+C \sum_{i\in K}(1-y_i(\sum_j\alpha_j\phi(x_j)^T\phi(x_i)))\\$

再令 $K_{ij}=\phi(x_i)^T\phi(x_j)$ ，则最终化简为

$min~~~~~\frac{1}{2}\sum_{i,j}\alpha_i\alpha_jK_{ij}+C \sum_{i\in K}(1-y_i(\sum_j\alpha_jK_{ij}))\\$

参数更新

$\alpha_i:=\alpha_i-\eta(\bar{K}\alpha -C\sum_{i\in K}y_i\bar{K_i})$

模型分类结果

$\sum_j\alpha_jK_{ij}<0=>y_i=-1\\ \sum_j\alpha_jK_{ij}>0=>y_i=1$

根据线性、非线性目标函数的区别以及C,高斯核的 $\sigma$ 取值的性质，判断目标函数对应的分类结果图

C表示分错点的惩罚程度。当C越大的时候说明对分错点的惩罚程度就越大，也就是对错误点的容忍率越低，分错点就会越少，（也就是强行将分割面插在很近的两个异类点之间）这时候两支撑面之间的间隔就会变小， $\|w\|$ 会增大。但随着C趋向无穷，也就退回到了原始SVM，没有错误点可以容忍，此时 $\|w\|$ 不会改变，间隔也不会变，支撑向量数量减少（由于在改进SVM中那些容错点（两支撑面之间的点）也是支持向量）。
$\sigma$ 越小，数据点越少，越容易造成过拟合

在这里插入图片描述

首先发现1，2的目标函数表示的是线性SVM，而1中的C=0.1,2中的C=1，则说明2中的SVM分错点更少一点，则1对应的图为c，2对应的图为b。

其次发现3，4，5的目标函数都是非线性SVM，且3中选择的核函数是多项式，而4，5选择的是高斯核函数，则3对应的决策边界是二次曲线则图应该为b。进而，4中的 $\sigma^2=1$ ,5中的 $\sigma^2=0.5$ ，则5的拟合效果会更好曲线更弯曲且可能会过拟合因此5对应的e图，4对应的是a图