模式识别——第10章支持向量机

最新推荐文章于 2022-10-04 15:13:03 发布

ExcaliburZZ

最新推荐文章于 2022-10-04 15:13:03 发布

阅读量249

点赞数

分类专栏：模式识别文章标签：支持向量机模式识别

本文链接：https://blog.csdn.net/gwruiki/article/details/116033438

版权

模式识别专栏收录该内容

6 篇文章 6 订阅

订阅专栏

本文详细介绍了支持向量机（SVM）的基本概念，包括线性可分情况下的最大间隔超平面、支持向量以及线性不可分时的处理方法，通过拉格朗日乘子法求解最优分类面，并探讨了非线性可分情况下的判别函数，强调了核函数在解决非线性问题中的作用。

摘要由CSDN通过智能技术生成

10.1 支持向量

10.1.1 线性可分

$D_0$ 和 $D_1$ 是 $n$ 维欧式空间中的两个点集。如果存在 $n$ 维向量 $W$ 和实数 $w_0$ ，使得所有属于 $D_0$ 的点 $X_i$ 都有 $W\cdot X_i+w_0>0$ ，而对于所有属于 $D_1$ 的点 $X_j$ 则有 $W\cdot X_j+w_0<0$ ，则我们称 $D_0$ 和 $D_1$ 线性可分。

$X_i,i=1,2,···,N$ 为样本， $y_i，i=1,2,···,N$ 为标量，

$X=(x_1,x_2,···,x_n)^T,W=(w_1,w_2,···,w_n)^T$ 表示权向量。

10.1.2 最大间隔超平面

将 $D_0$ 和 $D_1$ 完全正确地划分开的 $WX+w_0=0$ 就成了一个超平面。

最大间隔超平面：以最大间隔把两类样本分开的超平面。

10.1.3 支持向量

样本中距离超平面最近的一些点叫做支持向量。

10.2 线性判别函数和判别面

间隔的大小：
$margin=2*d=\frac{2}{||W||}$
即求：
$\min\frac{1}{2}{||W||}^2\\ s.t. y_i(W\cdot X+w_0)\ge 1(i=1,2,···,N)$
求解最优分类面：

建立拉格朗日函数：
$Q(\lambda)=\sum\limits_{i=1}^{N}\lambda_i-\frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\lambda_i\lambda_jy_iy_jX_i\cdot X_j$
寻找最大化目标函数 $Q(\lambda)$ 的拉格朗日乘子 ${\lambda_i}_{i=1}^{N}$ ，满足约束条件：

$（1）\sum\limits_{i=1}^{N}\lambda_iy_i=0 \\ （2）\lambda_i\ge 0,i=1,2,···,N$

（1） $\sum\limits_{i=1}^{N}\lambda_iy_i=0$

（2） $\lambda_i\ge 0,i=1,2,···,N$

由对偶问题解得 $\lambda^*=(\lambda_1,\lambda_2,···,\lambda_N)^T$ ，然后依 $K K T$ 条件就有
$W^*=\sum\limits_{i=1}^{N}y_i{\lambda_i}^*X_i$
由于 $\lambda_i[y_i(W\cdot X_i+w_0)-1]=0$ ，所以可取 $\forall j\in\{i|{\lambda_i}^*> 0\}$ ，得
${w_0}^*=y_j-\sum\limits_{i=1}^{N}y_i{\lambda_i}^*X_i\cdot X_j$
最后得到最优分类面：
$W^*\cdot X+{w_0}^*=0$

10.3 线性不可分下的判别面

三种情况下：

（1）特征向量都落在带状之外且都能正确分类。满足 $y_i(W\cdot X_i+w_0)\ge 1$ 。

（2）有些向量落在带状内，但仍能正确分类。满足 $0\le y_i(W\cdot X_i+w_0)<1$ 。

（3）有些向量被错误分类。满足 $y_i(W\cdot X_i+w_0)<1$ 。

此时，可以在条件项中增加一个松弛项 $\{\xi_i\}_{i=1}^{N},{\xi}_i>0$ ，使之成为 $y_i(W\cdot X_i+w_0)\ge 1-{\xi}_i$ 。第一种情况对应 ${\xi}_i=0$ ，第二种情况对应 $0<{\xi}_i\le 1$ ，第三种情况对应 ${\xi}_i>1$ 。

求解最优分类面：

建立拉格朗日函数：
$\max_{\lambda}(\sum\limits_{i=1}^{N}\lambda_i-\sum\limits_{i,j}\lambda_i\lambda_jy_iy_jX_i\cdot X_j)$
满足
$0\le \lambda_i\le C,i=1,2,···,N\\ \sum\limits_{i}\lambda_iy_i=0$
根据 $\lambda$ ，求得 $W、w_0$ ，得到最优分类面
$W=\sum\limits_{i=1}^{N}\lambda_iy_iX_i\\ \lambda_i[y_i(W\cdot X_i+w_0)-1+{\xi}_i]=0$

10.4 非线性可分下的判别函数

使用 $\varphi:X\longrightarrow Y$ ，将所有样本映射到高维空间，那么分割超平面可以表示为： $f(x)=W\cdot \varphi(x)+w_0$ 。

求解：
$\max\sum\limits_{i}\lambda_i-\frac{1}{2}\sum\limits_{i,j}\lambda_i\lambda_jy_iy_jK(X_i,X_j)\\ 0\le \lambda_i\le C,\sum\limits_{i}\lambda_iy_i=0$
先求出 $\lambda_i$ ，进而求出 $W、w_0$ ：
$W=\sum\limits_{i=1}^{N}\lambda_iy_i\varphi(X_i)\\ w_0=y_j-\sum\limits_{i=1}^{N}y_i{\lambda_i}^*\varphi(X_i)\cdot \varphi(X_j)$
这里， $j$ 使得 $\lambda_j>0$ 。最优非线性分类面为：
$g(X)=W\cdot \varphi(X)+w_0=\sum\limits_{i=1}^{N}\lambda_iy_iK(X_i,X_j)+w_0$
其中 $K(X,X_j)$ 为核函数。