第七章支持向量机（二）线性支持向量机与软间隔最大化

最新推荐文章于 2021-10-06 21:25:42 发布

csdn_lzw

最新推荐文章于 2021-10-06 21:25:42 发布

阅读量340

点赞数 1

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/csdn_lzw/article/details/79794233

版权

统计学习方法专栏收录该内容

12 篇文章 0 订阅

订阅专栏

线性支持向量机与软间隔最大化

一、线性可分SVM的问题

【1】
现实中数据往往是线性不可分的。

即使可分，也会因异常点（蓝色的）影响模型的泛化效果。
不考虑蓝色异常点，分类超平面为橙色。加入蓝色点。分离超平面为黑色。这样会严重影响模型的预测效果。

二、线性SVM与软间隔最大化

线性不可分意味着某些样本点不能满足函数间隔大于等于1。
软间隔是相对于硬间隔而言的，对此我们放松了函数间隔的要求，之前是一定要大于等于1，现在只需要加上一个大于等于0的松弛变量能大于1就行。
对每一个样本 $(x_i,y_i)$ 引入一个松弛变量 $\xi_i\ge0$ 。约束条件变为

y i (w \cdot x i + b) + ξ i \geq 1

$y_i(w\centerdot x_i+b)+\xi_i\ge1$
松弛变量的引入是需要付出代价的，也就是说我们要惩罚那些误分类的点。
线性SVM（包括了线性可分和线性不可分）的原始问题如下

m i n w, b, ξ 1 2 | | w | | 2 + C \sum i = 1 n ξ i (1)

$\mathop {min}_{w,b,\xi} \qquad \frac{1}{2}||w||^2+C\sum_{i=1}^n\xi_i \tag{1}$

s . t . y i (w \cdot x i + b) \geq 1 - ξ i, i = 1, 2, . . n (2)

$s.t. \qquad y_i(w \centerdot x_i+b) \ge1-\xi_i,\quad i=1,2,..n\tag{2}$

ξ i \geq 0, i = 1, 2, . . . n (3)

$\xi_i \ge0, \quad i=1,2,...n\tag{3}$

目标函数尽量小，即间隔尽量大，同时误分类点的个数尽量小，

C>0 C > 0 $C>0$ 是调和二者的系数。

三、对偶算法

根据上篇对偶算法的一般步骤有
公式繁琐，有机会再重敲ヽ(｀Д´)ﾉ︵ ┻━┻ ┻━┻
这里写图片描述
由此我们得到了线性SVM的对偶问题

m a x α - 1 2 \sum i = 1 n \sum j = 1 n α i α j y i y j (x i \cdot x j) + \sum i = 1 n α i (4)

$\mathop {max}_{\alpha}\quad -\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j(x_i\centerdot x_j)+\sum_{i=1}^n\alpha_i \tag{4}$

s . t . \sum i = 1 n α i y i = 0 (5)

$s.t. \quad \sum_{i=1}^n\alpha_iy_i=0 \tag{5}$

0 \leq α i \leq C, i = 1, 2, . . . n (6)

$0 \le \alpha_i\le C, \quad i=1,2,...n \tag{6}$
与线性可分SVM的对偶问题对比，只多了 $\alpha_i\le C$ 。
4. 线性支持向量机的KKT条件
解的偏导=0

\nabla w L (w *, b *, ξ *, α *, μ *) = w * - \sum i = 1 n α * i y i x i = 0

$\nabla_wL(w^*,b^*,\xi^*,\alpha^*,\mu^*) = w^*-\sum_{i=1}^{n}\alpha_i^*y_ix_i=0$

\nabla b L (w *, b *, ξ *, α *, μ *) = - \sum i = 1 n α * i y i = 0

$\nabla_bL(w^*,b^*,\xi^*,\alpha^*,\mu^*) = -\sum_{i=1}^{n}\alpha_i^*y_i=0$

\nabla ξ L (w *, b *, ξ *, α *, μ *) = C - α * - μ * = 0

$\nabla_\xi L(w^*,b^*,\xi^*,\alpha^*,\mu^*) =C-\alpha^*-\mu^*=0$
解满足不等式约束，

y i (w * \cdot x i + b *) - 1 + ξ * \geq 0

$y_i(w^*\centerdot x_i+b^*)-1+\xi^* \ge0$

ξ * \geq 0

$\xi^* \ge0$
拉格朗日乘子大于0

α * i \geq 0

$\alpha_i^*\ge0$

μ * i \geq 0

$\mu_i^*\ge0$
对偶互补:拉格朗日乘子大于0时，解的不等式约束的等号成立

α * i (y i (w * \cdot x i + b *) - 1 + ξ * i) = 0

$\alpha_i^*(y_i(w^*\centerdot x_i+b^*)-1+\xi_i^*) = 0$

μ * i ξ * i = 0, i = 1, 2, . . . n

$\mu_i^* \xi_i^*=0, \quad i=1,2,...n$
由第一个偏导得到

w * = \sum i α * i y i x i (7)

$w^* = \sum_{i}\alpha_i^*y_ix_i \tag{7}$
参数b是根据对偶互补条件得到的。
若存在

0<α∗j<C 0 < α j ∗ < C $0<\alpha^*_j<C$ ,

由C−αj−μj=0 由 C − α j − μ j = 0 $由C-\alpha_j-\mu_j=0$ 知

μj≠0 μ j ≠ 0 $\mu_j \neq0$ 。
互补条件2得，

ξj=0 ξ j = 0 $\xi_j=0$
带到互补条件1，

yj(w∗⋅xj+b∗)−1=0 y j ( w ∗ ⋅ x j + b ∗ ) − 1 = 0 $y_j(w^*\centerdot x_j+b^*)-1=0$

b * = y j - \sum i = 1 n α * i y i (x i \cdot x j) (8)

$b^* = y_j-\sum_{i=1}^n\alpha_i^*y_i(x_i\centerdot x_j) \tag{8}$
$w^*,b^*$ 与线性可分SVM对比

【2】p101 线性可分SVM， $w,b$ 是唯一的
【2】p109 线性SVM，可以证明 $w$ 的解是唯一的，但 $b$ 的解是不唯一的， $b$ 的解存在于一个区间。
在计算的时候， $b$ 可以取所有符合条件的样本的平均值。

四、支持向量

由公式（7）（8）知， $w^*，b^*$ 只依赖于训练数据集中 $\alpha^*>0$ 的样本点（称这样的点为支持向量），而其他样本点对 $w^*，b^*$ 没有影响。这和线性可分SVM定义的支持向量是一致的。
线性可分SVM中的支持向量在间隔边界上
线性SVM的支持向量可以在
间隔边界上，间隔边界与超平面之间，分离超平面误分一侧
这里写图片描述
1.若 $0<\alpha^*_i<C$ ,上面已经推了一遍了， $\xi_i=0$ ，松弛变量为0，支持向量在间隔边界上
2.若 $\alpha^*_i=C$
- $0<\xi^*_i<1$ ,分类正确，样本在间隔边界与分类超平面之间
- $\xi^*_i=1$ ,样本在分离超平面上
- $\xi^*_i>1$ ,样本在分离超平面误分一侧

五、合页损失函数（hinge loss）

线性SVM的另一种解释
最小化合页损失函数

\sum i = 1 n [1 - y i (w \cdot x i + b)] + + λ | | w | | 2 (9)

$\sum_{i=1}^n[1-y_i(w\centerdot x_i+b)]_++ \lambda||w||^2 \tag{9}$
其中

[z]+ [ z ] + $[z]_+$ 为取正值函数

[z] + = {z, 0, z > 0 z \leq 0

$[z]_+=\left\{\begin{array}{cc} z, & z>0\\ 0, & z\le0 \end{array}\right.$
目标函数表示第一项当样本点被正确分类且函数间隔（确信度）

yi(w⋅xi+b) y i ( w ⋅ x i + b ) $y_i(w\centerdot x_i+b)$ 大于1时，损失是0。
否则，损失是

1−yi(w⋅xi+b) 1 − y i ( w ⋅ x i + b ) $1-y_i(w\centerdot x_i+b)$ ,第二项表示正则化项。
感知机的损失函数是

[−yi(w⋅xi+b)]+ [ − y i ( w ⋅ x i + b ) ] + $[-y_i(w\centerdot x_i+b)]_+$ ,当样本点被正确分类时，损失是0。
否则,损失是

−yi(w⋅xi+b) − y i ( w ⋅ x i + b ) $-y_i(w\centerdot x_i+b)$ 。
合页损失函数不仅要求分类正确，而且确信度足够高时损失才是0。
0-1 损失函数，是可以用于二分类问题的损失函数，分类正确，损失是0；否则，损失是1。

【1】

横坐标表示函数间隔，纵坐标表示损失。
其他的损失函数？？？先挖个坑

下面证明最小化合页损失函数（公式9）和软间隔最大化（线性SVM的原始问题公式1-3）是等价的
令

[1 - y i (w \cdot x i + b)] + = ξ i

$[1-y_i(w\centerdot x_i+b)]_+=\xi_i$
取正值函数知，

ξi≥0 ξ i ≥ 0 $\xi_i\ge0$ ,公式3成立；

[1 - y i (w \cdot x i + b)] + = {1 - y i (w \cdot x i + b), 0, 1 - y i (w \cdot x i + b) > 0 1 - y i (w \cdot x i + b) \leq 0

$[1-y_i(w\centerdot x_i+b)]_+=\left\{\begin{array}{cc} 1-y_i(w\centerdot x_i+b), & 1-y_i(w\centerdot x_i+b)>0\\ 0, & 1-y_i(w\centerdot x_i+b)\le0 \end{array}\right.$
当