支持向量机之线性支持向量机（三）

最新推荐文章于 2024-08-03 18:21:56 发布

氵冫丶

最新推荐文章于 2024-08-03 18:21:56 发布

阅读量1.3k

点赞数

文章标签： svm 线性支持向量机

本文链接：https://blog.csdn.net/qunxingvip/article/details/47857957

版权

数据挖掘同时被 2 个专栏收录

37 篇文章 0 订阅

订阅专栏

机器学习

36 篇文章 0 订阅

订阅专栏

线性支持向量机与软间隔最大化

线性支持向量机与软间隔最大化

线性支持向量机

对特征空间上的训练数据集 $T=\left\{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N)\right\}$ ,其中 $x_i \in \chi = R^n,y_i = \left\{+1,-1\right\}$ ， $x_i$ 是第i个特征向量， $y_i$ 是类别标记。这里的训练数据集不是线性可分的，即：训练数据集中存在某些异常点，但是将这些异常点踢出后的训练集是线性可分的。

线性不可分意味着：某些样本点 $(x_i,y_i)$ 不能满足间隔大于等于1的约束，对此可以增加松弛变量 $\color{Red}{\xi \geq 0}$ ，使函数间隔加上松弛变量后大于等于1，约束条件变为：

yi(<w,xi>+b)≥1−ξi $\color{Red}{y_i(<w,x_i>+b) \geq 1-\xi_i}$

同时，对每个松弛变量 $\xi_i$ ，支付一个代价 $\xi_i$ .目标函数变成：

12||w||2+C∑Ni=1ξi $\color{Red}{\frac{1}{2}||w||^2+C \sum_{i=1}^N\xi_i}$

这里的 $\color{Red}{C，是惩罚参数}$ ，一般 $\color{Red}{C增大时对误分类惩罚增大，C减小时对误分类惩罚减小}$ 。目标函数的含义是： $\frac{1}{2}||w||^2$ 尽量小是使间隔尽量大，同时是误分类点的个数尽量的小。 $C,\xi_i$ 用来使误分类的点数尽量的少。

$\color{Red}{线性不可分的支持向量机学习的原问题：}$

12||w||2+C∑Ni=1ξi $\color{Red}{\frac{1}{2}||w||^2+ C \sum_{i=1}^N\xi_i}$

s.t.yi(<w,xi>+b)≥1−ξi,i=1,2,...,N $\color{Red}{s.t. y_i(<w,x_i>+b)\geq 1- \xi_i},i = 1,2,...,N$

ξi≥0,i=1,2,...,N $\color{Red}{\xi_i \geq 0 },i=1,2,...,N$

这里 $w$ 是唯一的，证明方法和之前的一样，可以很好的理解是 $w$ 是控制方向的，方向是不能变化的。对于 $b$ 可以证明是不确定的，但是是在一个区间之内，可以这样理解，把添加的约束变量 $\xi_i$ 和 $b$ 合在一起认为是 $b$ ，可以发现对于每个 $\xi_i$ 不是相同的，就会使 $b$ 是在一点范围内波动。所有方向 $w$ 是不能变化的，可以在一定范围内波动。

设解是 $w^*,b^*$

分离超平面：

<w∗,x>+b∗=0 $\color{Red}{<w^*,x>+b^*=0}$

分类决策函数：

f(x)=sign(<w∗,x>+b∗) $\color{Red}{f(x) = sign(<w^*,x>+b^*)}$

学习的对偶算法

原始问题：

12||w||2+C∑Ni=1ξi $\color{Red}{\frac{1}{2}||w||^2+ C \sum_{i=1}^N\xi_i}$

s.t.yi(<w,xi>+b)≥1−ξi,i=1,2,...,N $\color{Red}{s.t. y_i(<w,x_i>+b)\geq 1- \xi_i},i = 1,2,...,N$

ξi≥0,i=1,2,...,N $\color{Red}{\xi_i \geq 0 },i=1,2,...,N$

原始问题的拉格朗日函数：

$\color{Red}{L(w,b,\xi,\alpha,\mu )=\frac{1}{2}||w||^2+ C\sum_{i=1}^N\xi_i-\sum_i=1^N\alpha_i(y_i(<w,x_i>+b)-1+\xi_i) - \sum_{i=1}^N\mu_i\xi_i}$

其中 $\alpha_i,\mu_i是拉格朗日系数，都大于等于0$
（1）求 $\color{Red}{\underset{w,b,\xi_i}{min}L(w,b,\xi,\alpha,\mu )}$
拉格朗日函数分布对 $w,b,\xi$ 求导可得到其极小

▽wL(w,b,ξ,α,μ)=w−∑Ni=1αiyixi=0 $\color{Red}{\bigtriangledown_wL(w,b,\xi,\alpha,\mu)=w - \sum_{i=1}^N\alpha_iy_ix_i=0}$

▽bL(w,b,ξ,α,μ)=−∑Ni=1αiyi=0 $\color{Red}{\bigtriangledown_bL(w,b,\xi,\alpha,\mu)=- \sum_{i=1}^N\alpha_iy_i=0}$

▽ξiL(w,b,ξ,α,μ)=C−αi−μi=0 $\color{Red}{\bigtriangledown_{\xi_i}L(w,b,\xi,\alpha,\mu)=C - \alpha_i - \mu_i = 0}$

得：

w=∑Ni=1αiyixi $\color{Red}{w = \sum_{i=1}^N\alpha_i y_i x_i}$

∑Ni=1αiyi=0 $\color{Red}{\sum_{i=1}^N \alpha_iy_i=0}$

C−αi−μ=0 $\color{Red}{C - \alpha_i-\mu = 0}$

带入拉格朗日函数，得：

$\color{Red}{\underset{w,b,\xi_i}{min}L(w,b,\xi,\alpha,\mu )= -\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j<x_i,x_j>+\sum_{i=1}^N\alpha_i}$

额，这个与之前硬间隔最大化的结果是一样的。

（2）求 $\color{Red}{\underset{w,b,\xi}{min}L(w,b,\xi,\alpha,\mu )}$ 对 $\color{Red}{\alpha}$ 的极大值

对偶问题：

maxαL(w,b,ξ,α,μ)=−12∑Ni=1∑Nj=1αiαjyiyj<xi,xj>+∑Ni=1αi $\color{Red}{\underset{\alpha}{max}L(w,b,\xi,\alpha,\mu )= -\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j<x_i,x_j>+\sum_{i=1}^N\alpha_i}$

∑Ni=1αiyi=0 $\color{Red}{\sum_{i=1}^N \alpha_iy_i=0}$

C−αi−μ=0 $\color{Red}{C - \alpha_i-\mu = 0}$

αi≥0,i=1,2,...,N $\alpha_i \geq 0,i=1,2,...,N$

μi≥0,i=1,2,...,N $\mu_i \geq 0,i=1,2,...,N$

转化成极小化问题：

minαL(w,b,ξ,α,μ)=12∑Ni=1∑Nj=1αiαjyiyj<xi,xj>−∑Ni=1αi $\color{Red}{\underset{\alpha}{min}L(w,b,\xi,\alpha,\mu )= \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j<x_i,x_j>-\sum_{i=1}^N\alpha_i}$

∑Ni=1αiyi=0 $\color{Red}{\sum_{i=1}^N \alpha_iy_i=0}$

C−αi−μ=0 $\color{Red}{C - \alpha_i-\mu = 0}$

αi≥0,i=1,2,...,N $\alpha_i \geq 0,i=1,2,...,N$

μi≥0,i=1,2,...,N $\mu_i \geq 0,i=1,2,...,N$

上面后三个约束和转化成 $\color{Red}{ 0 \leq \alpha_i \leq C}$

解对偶问题的最优解，再求出原问题的最优解

求解 $w,b$

设 $\color{Red}{\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T}$ 是对偶问题的最优解，若存在 $\color{Red}{\alpha_j^*，0\prec \alpha_j \prec C }，$ 则原问题的解:

w∗=∑Ni=1α∗iyixi $\color{Red}{w^* = \sum_{i=1}^N \alpha_i^*y_ix_i}$

b∗=yj−∑Ni=1yiαi<xi,xj> $\color{Red}{b^* = y_j - \sum_{i=1}^Ny_i\alpha_i}<x_i,x_j>$

证明：
原始问题是凸二次规划问题，解满足KKT条件，即：

▽wL(w∗,b∗,ξ∗,α∗,μ∗)=w∗−∑Ni=1α∗iyixi=0 $\color{Red}{\bigtriangledown_wL(w^*,b^*,\xi^*,\alpha^*,\mu^*)=w^* - \sum_{i=1}^N\alpha_i^*y_ix_i=0}$

▽bL(w∗,b∗,ξ∗,α∗,μ∗)=−∑Ni=1α∗iyi=0 $\color{Red}{\bigtriangledown_bL(w^*,b^*,\xi^*,\alpha^*,\mu^*)=- \sum_{i=1}^N\alpha_i^*y_i=0}$

▽ξiL(w∗,b∗,ξ∗,α∗,μ∗)=C−α∗i−μ∗i=0 $\color{Red}{\bigtriangledown_{\xi_i}L(w^*,b^*,\xi^*,\alpha^*,\mu^*)=C - \alpha_i^* - \mu_i^* = 0}$

α∗i(yi(<w∗,xi>+b∗)−1+ξ∗i)=0 $\color{Red}{\alpha_i^*(y_i(<w^*,x_i>+b^*)-1+\xi_i^*)=0}$

μ∗iξ∗=0 $\color{Red}{\mu_i^* \xi_* = 0}$

yi(<w∗,xi>+b∗)−1+ξ∗i)≥0 $\color{Red}{y_i(<w^*,x_i>+b^*)-1+\xi_i^*)\geq0}$

ξ∗i≥0 $\color{Red}{\xi_i^*\geq 0 }$

α∗i≥0 $\color{Red}{\alpha_i^* \geq 0 }$

μ∗i≥0，i=1,2,...,N $\color{Red}{\mu_i^*\geq 0 }，i=1,2,...,N$

解得：
$\color{Red}{w^* = \sum_{i=1}^N \alpha_i^*y_ix_i}$
存在 $\alpha_j^*，0\prec \alpha_j^* \prec C$
则 $y_j(<w^*,x_j>+b^*)-1+\xi_j^*=0，\xi_j^* = 0$

$\color{Red}{b^* = y_j - \sum_{i=1}^Ny_i\alpha_i}<x_i,x_j>$

分离超平面：

<w∗,x>+b∗=0 $\color{Red}{<w^*,x>+b^*=0}$

分类决策函数：

f(x)=sign(<w∗,x>+b∗) $\color{Red}{f(x) = sign(<w^*,x>+b^*)}$

线性支持向量机学习算法

输入:训练数据集 $T=\left\{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N)\right\},x_i\epsilon \chi =R^n,y_i\epsilon Y =\left\{-1,+1\right\},i=1,2,3,...,N$
输出：分离超平面和分类决策函数

（1）选择惩罚参数 $C \succ 0$ ,构建凸二次规划问题

s.t.∑Ni=1αiyi=0 $s.t.\color{Red}{\sum_{i=1}^N \alpha_iy_i=0}$

0≤αi≤C $\color{Red}{ 0 \leq \alpha_i \leq C}$

最优解是： $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$

（2）计算w，b
$\color{Red}{w^* = \sum_{i=1}^N \alpha_i^*y_ix_i}$

选择一个 $\alpha_j^*$ 满足 $0\prec \alpha_j^* \prec C$
$\color{Red}{b^* = y_j - \sum_{i=1}^Ny_i\alpha_i}<x_i,x_j>$

（3）分离超平面：
$\color{Red}{<w^*,x>+b^*=0}$
分类决策函数：
$\color{Red}{f(x) = sign(<w^*,x>+b^*)}$

说明：
1.由于满足 $0\prec \alpha_j^* \prec C$ 的点有多个，所以每次的结果可能不一样，可以感觉分分类的结果好坏来选取，或者对符合条件的点取平均值。

支持向量机

和之前定义一样的： $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$ 中对应于 $0\prec \alpha_i^* \prec C$ 的样本点 $(x_i,y_i)$ 的实例 $x_i$ 称为支持向量机。

这里写图片描述

如上图：中间实线是分离超平面两侧的虚线是间隔边界。

对实例点 $x_i$ 到边界的距离是 $\frac{\xi_i}{||w||}$

此时的支持向量点可能在间隔边界上，也可能不在间隔边界上

当 $\alpha_j^*< C,则，\xi_j=0$ ,在边界上
当 $\alpha_j^*= C,则，0<\xi_j<1$ ,分类正确，在间隔与分离超平面之间
当 $\alpha_j^*=C,则，\xi_j=1$ ,在分离超平面上
当 $\alpha_j^*=C,则，\xi_j>1$ ,在分离超平面误分类一侧。