百面机器学习 #3 经典算法：01-2 不完全线性可分（软间隔）支撑向量机SVM

最新推荐文章于 2024-08-31 00:00:00 发布

petSym

最新推荐文章于 2024-08-31 00:00:00 发布

阅读量285

点赞数

分类专栏：百面机器学习数学机器学习文章标签：支持向量机机器学习

本文链接：https://blog.csdn.net/petsym/article/details/106735462

版权

机器学习同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

百面机器学习

7 篇文章 0 订阅

订阅专栏

数学

7 篇文章 0 订阅

订阅专栏

文章目录

①从原问题到对偶问题
②对偶问题的解的形式化简
③从对偶问题的解到原问题的解
④从原问题的解到分离超平面、决策函数、支撑向量

假设训练数据集不是线性可分的。通常情况是，训练数据中有一些特异点（outlier），将这些特异点除去后，剩下大部分的样本点组成的集合是线性可分的。

①从原问题到对偶问题

对每个样本点 $x_i,y_i)$ 引进一个松弛变量，使函数间隔加上松弛变量大于等于1。约束条件变为
$y_i(w\cdot x_i +b)\ge1-\xi_i,\quad i =1,2,...,N$
同时，对每个松弛变量，支付一个代价，原优化问题变为凸二次规划（convex quadratic programming）问题:
$\begin{array}{ll} \min \limits_{w, b, \xi} & \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i} \\ \text { s.t. } & y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}, \quad i=1,2, \cdots, N \\ & \xi_{i} \geqslant 0, \quad i=1,2, \cdots, N \end{array}$
C 称为惩罚参数，一般由应用问题决定，C 值大时对误分类的惩罚增大，C值小时对误分类的惩罚减小。最小化目标函数包含两层含义：使 $\frac{1}{2}||w||^2$ 尽量小即间隔尽量大，同时使误分类点的个数尽量小，C 是调和二者的系数。
原始最优化问题的拉格朗日函数是
$\xi, \alpha, \mu) \equiv \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}-\sum_{i=1}^{N} \alpha_{i}\left(y_{i}\left(w \cdot x_{i}+b\right)-1+\xi_{i}\right)-\sum_{i=1}^{N} \mu_{i} \xi_{i}$
其中 $\alpha_i\ge0,\mu_i\ge0$

②对偶问题的解的形式化简

现在我们要解的原问题的变量从两个 $w, b$ 变成了三个 $w,b,\xi$ ，同样原始问题等价于对拉格朗日函数的min-max问题，对偶问题是拉格朗日函数的max-min问题，其中min针对问题变量，max针对约束参数。对偶问题的内层min问题，对问题变量求导有
$\begin{array}{l} \nabla_{w} L(w, b, \xi, \alpha, \mu)=w-\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}=0 \\ \nabla_{b} L(w, b, \xi, \alpha, \mu)=-\sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ \nabla_{\xi_{i}} L(w, b, \xi, \alpha, \mu)=C-\alpha_{i}-\mu_{i}=0 \end{array}$
化简得
$\begin{array}{c} w=\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i} \\ \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ C-\alpha_{i}-\mu_{i}=0 \end{array}$
代回拉格朗日函数，得到对偶问题：
$\begin{array}{ll} \max \limits_{\alpha} & -\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i} \\ \text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ & C-\alpha_{i}-\mu_{i}=0 \\ & \alpha_{i} \geqslant 0 \\ & \mu_{i} \geqslant 0, \quad i=1,2, \cdots, N \end{array}$
再将对目标函数求极大转换为求极小，消去变量 $\mu_i$ ，得到对偶问题如下，可以看到只是约束参数 $\alpha_i$ 的范围多了一个C
$\begin{array}{ll} \min \limits_{\alpha} & \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} \\ \text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ & 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N \end{array}$
可以通过求解对偶问题而得到原始问题的解，进而确定分离超平面和决策函数。

③从对偶问题的解到原问题的解

假设对偶问题的解 $\alpha^*$ 已经知道，（对原问题）用KKT条件得
$\begin{array}{l} \nabla_{w} L\left(w^{*}, b^{*}, \xi^{*}, \alpha^{*}, \mu^{*}\right)=w^{*}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}=0 \\ \nabla_{b} L\left(w^{*}, b^{*}, \xi^{*}, \alpha^{*}, \mu^{*}\right)=-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}=0 \\ \nabla_{\xi} L\left(w^{*}, b^{*}, \xi^{*}, \alpha^{*}, \mu^{*}\right)=C-\alpha^{*}-\mu^{*}=0 \\ \alpha_{i}^{*}\left(y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)-1+\xi_{i}^{*}\right)=0 \\ \mu_{i}^{*} \xi_{i}^{*}=0 y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)-1+\xi_{i}^{*} \geqslant 0 \\ \xi_{i}^{*} \geqslant 0 \\ \alpha_{i}^{*} \geqslant 0 \\ \mu_{i}^{*} \geqslant 0, \quad i=1,2, \cdots, N \end{array}$
第一个式子容易得到
$w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}$

至少有一个（不是要求的，是求解问题的时候，发现至少一个非零才是合理的，否则都为0，根据第一个式子w也为0） $\alpha_j^*>0$ ，任选其一， $y_{j}\left(w^{*} \cdot x_{j}+b^{*}\right)-1=0$

注意到 $y_{j}^{2}=1$ ，联立上述二式得

$b^*=\frac{1}{y_j}-w^*\cdot x_j=y_j-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}x_j$

和前述硬间隔的结果一样。

④从原问题的解到分离超平面、决策函数、支撑向量

进一步，分离超平面可以写成
$\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x \cdot x_{i}\right)+b^{*}=0$
分类决策函数可以写成
$f(x)=sign\left(\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x \cdot x_{i}\right)+b^{*}\right)$
可以看到， $w^*,b^*$ 只依赖于那些 $\alpha_j^*>0$ 的样本，这样的对应的训练样本我们就称之为支撑向量。

注：

每次任选一个符合条件的非0的 $\alpha_j$ 就可求得w和b，但是这样的结果可能由于j不一样而不唯一。

petSym

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
百面机器学习 #3 经典算法：01-2 不完全线性可分（软间隔）支撑向量机SVM

文章目录①从原问题到对偶问题②对偶问题的解的形式化简③从对偶问题的解到原问题的解④从原问题的解到分离超平面、决策函数、支撑向量假设训练数据集不是线性可分的。通常情况是，训练数据中有一些特异点（outlier），将这些特异点除去后，剩下大部分的样本点组成的集合是线性可分的。①从原问题到对偶问题对每个样本点(xi,yi)(x_i,y_i)(xi,yi) 引进一个松弛变量，使函数间隔加上松弛变量大于等于1。约束条件变为yi(w⋅xi+b)≥1−ξi,i=1,2,...,Ny_i(w\cdot x
复制链接

扫一扫

专栏目录