彻底理解支持向量机(二)

最新推荐文章于 2020-09-01 11:11:02 发布

Rover Ramble

最新推荐文章于 2020-09-01 11:11:02 发布

阅读量233

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/rover2002/article/details/105789400

版权

机器学习专栏收录该内容

24 篇文章 1 订阅

订阅专栏

线性SVM的对偶问题

最大间隔的优化问题：
$\frac{1}{2}\|\omega\|^2 \quad s.t.\, y_i(\omega^Tx_i + b) \ge 1, i=1,...,n$

这是一个凸二次优化问题，转化为拉格朗日对偶问题，通过求解与原问题等价的对偶问题得到原始问题的最优解，使得在一定的约束条件下，目标最优，损失最小。
此时目标函数变为：

$L(\omega,b,\alpha)=\dfrac{1}{2}\|\omega\|^2 - \sum_{i=1}^{n}\alpha_i(y_i(\omega^Tx_i + b) - 1)$

把原始问题的最小化，转化为拉格朗日函数的最大化：
$\mathop{\max}_{\alpha_i\ge 0}L(\omega,b,\alpha)$
拉格朗日乘子 $\alpha$ 相当于惩罚因子：

当不满足原约束条件（即 $y_i(\omega^Tx_i + b) < 1$ ）时，乘上非负的拉格朗日乘子 $\alpha$ ，整个L(w,b,a)变大了；

满足约束条件 $y_i(\omega^Tx_i + b) \ge 1$ 时，拉格朗日乘子 $\alpha$ 使得L()变小了，L的极大值就是 $\frac{1}{2}\|\omega\|^2$ ，与原始目标一致！

越不满足约束条件，L就越大，表示偏离原始目标越远；符合约束条件时，L越来越小，max(L)等价于原始问题，这样
$L(\alpha)$ 使约束条件和原始目标绑定到了一起，方便优化求解。

问题就变成了L关于 $\alpha$ 最大化，然后在约束条件得到满足的情况下最小化 $\frac{1}{2}\|\omega\|^2$ ，
写成公式：
$\mathop{\min}\limits_{w,b} \mathop{\max}\limits_{\alpha_i\ge 0}L(\omega,b,\alpha)=p^* \rightarrow \mathop{\max}\limits_{\alpha_i\ge 0} \mathop{\min}\limits_{w,b} L(\omega,b,\alpha)=d^{*}$

$p^*$ 是原始问题的最优值， $d^*$ 表示其对偶问题的最优值，且 $d^* \le p^*$ ，当满足KTT条件时，对偶问题的最优值等于原始问题的最优值。

求解，先分别对w, b求偏导并令其等于0，代入拉格朗日函数，得到：
$\mathop{\min}\limits_{\omega,b}\ L(\omega,b,\alpha) = - \dfrac{1}{2}\sum_i\sum_j \alpha_i \alpha_j y_i y_j (x_i \cdot x_j)+\sum_i \alpha_i \quad s.t. \sum\alpha_iy_i = 0$
再对 $\alpha$ 求最大值：
$\mathop{\max}_{\alpha} - \dfrac{1}{2}\sum_i\sum_j \alpha_i \alpha_j y_i y_j (x_i \cdot x_j)+\sum_i \alpha_i$
等价于：
$\mathop{\min}_{\alpha} \dfrac{1}{2}\sum_i\sum_j \alpha_i \alpha_j y_i y_j (x_i \cdot x_j)-\sum_i \alpha_i$
这种算法称为线性可分支持向量机的对偶学习算法。

最后得到：
$\omega^* = \sum_i\alpha_i^*\ y_i x_i \, ; \\ b^*=y_i-\sum\limits_{i=1}^{N}\alpha_i^*y_i(x_i\cdot x_j)$

松弛变量

以上我们都只关心一个目的：寻找能够最大化间隔的分类超平面。然而，由于样本点中异常点的存在，只考虑这一个因素往往无法得到一个最佳的分类器。
如果我们能够放宽对于间隔的限制，便可以一定程度的忽略异常点的影响，反而能得到间隔更大的分类超平面。

上述容忍异常点的思路可以通过引入“松弛变量”（slack variable）实现，把约束条件放松到
$y_i(w^Tx_i+b)+\xi_i \geq 1,\ i=1,2,...,N$
可以用 $\sum_{i=1}^{l}\xi_i$ 来描述训练集被错分的程度。
当 $\xi_i$ 足够大时，样本点总可以满足间隔尽量大错划尽量少，需要对 $\xi_i$ 加一个惩罚参数C:
$\begin{array}{lr} \mathop{\min}_{\omega,b,\xi}\ \dfrac{1}{2}\|\omega\|^2 + C\sum_{i=1}^{l}\xi_i \\ \\ s.t \quad y_i(w^Tx_i+b)+\xi_i \geq 1,\ \xi_i\geq 0,\ i=1,2,...,l \end{array}$

C取无穷： $\xi_i$ 只能为零，代表无法容忍任何误判样本的出现，即严格遵守“间隔”的限制，得到没有引入松弛变量时的分类超平面
C取零： $\xi_i$ 可以任意大，即任何误判结果都可以被容忍，得到分类超平面没有意义
C较大： $\xi_i$ 不能很大，因此限制条件难以被忽略，会得到较为狭窄间隔的分类超平面
C较小： $\xi_i$ 影响较小，因此限制条件可以被忽略，会得到较为宽间隔的分类超平面

SVM（1）——最大间隔分类器

非线性svm

把数据变换到高维空间，使得在高维特征空间中线性可分，通常使用函数映射比如 $k=((x_i \cdot x_j)+1)^2$

注意到线性间隔分类器只依赖于XiXj，因此转换函数只依赖于 $\phi(x_i)\phi(x_j)=K(x_i\cdot x_j)$
$(x_i\cdot x_j) \rightarrow K(x_i\cdot x_j)$

决策函数变为 $f(x)=sgn(\sum\limits_{i=1}^{l}\alpha_i^*y_iK(x_i,x_j) + b^*)$

这样就可以选择各种形式的K(x,j),一旦选定了该核函数，就可以用上述决策函数求解最优化问题了。

常见的核函数有：

多项式核， $K(x_i,x_j) = [(x_i\cdot x_j)+c]^q$
径向基核(RBF)， $K(x_i,x_j) = exp \left \{ - \dfrac {|x-x_i|^2}{\sigma^2} \right \}$
sigmoid核， $K(x_i,x_j) = tanh(v(x\cdot x_i)+c)$

径向基函数 (Radial Basis Function 简称 RBF), 是一类函数，径向基函数是一个它的值(y)只依赖于变量(x)距原点距离的函数，即 $\phi(\mathbf{x}) = \phi(\|\mathbf{x}\|)$ ；也可以是距其他某个中心点的距离，即 $\phi(\mathbf{x}, \mathbf{c}) = \phi(\|\mathbf{x}-\mathbf{c}\|)$ 。也就是说，可以选定径向基函数来当核函数，譬如SVM里一般都用高斯径向基作为核函数，但是核函数不一定要选择径向基这一类函数。
最常用的径向基函数是高斯核函数： $K(x_i,x_j) = exp \left \{ - \dfrac {|x-x_i|^2}{2\sigma^2} \right \}$
Ref:
https:// blog.csdn.net/u013630349/article/details/48162589

Rover Ramble

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
彻底理解支持向量机(二)

线性SVM的对偶问题最大间隔的优化问题： min12∥ω∥2s.t. yi(ωTxi+b)≥1,i=1,...,nmin \frac{1}{2}\|\omega\|^2 \quad s.t.\, y_i(\omega^Tx_i + b) \ge 1, i=1,...,nmin21∥ω∥2s.t.yi(ωTxi+b)≥1,i=1,...,n这是一个凸二次优化问题，转化为拉格朗日对偶问...
复制链接

扫一扫