模式识别——第10章 支持向量机

本文详细介绍了支持向量机(SVM)的基本概念,包括线性可分情况下的最大间隔超平面、支持向量以及线性不可分时的处理方法,通过拉格朗日乘子法求解最优分类面,并探讨了非线性可分情况下的判别函数,强调了核函数在解决非线性问题中的作用。
摘要由CSDN通过智能技术生成

10.1 支持向量

10.1.1 线性可分

D 0 D_0 D0 D 1 D_1 D1 n n n 维欧式空间中的两个点集。如果存在 n n n 维向量 W W W 和实数 w 0 w_0 w0,使得所有属于 D 0 D_0 D0 的点 X i X_i Xi 都有 W ⋅ X i + w 0 > 0 W\cdot X_i+w_0>0 WXi+w0>0,而对于所有属于 D 1 D_1 D1 的点 X j X_j Xj 则有 W ⋅ X j + w 0 < 0 W\cdot X_j+w_0<0 WXj+w0<0,则我们称 D 0 D_0 D0 D 1 D_1 D1 线性可分。

X i , i = 1 , 2 , ⋅ ⋅ ⋅ , N X_i,i=1,2,···,N Xi,i=1,2,,N 为样本, y i , i = 1 , 2 , ⋅ ⋅ ⋅ , N y_i,i=1,2,···,N yii=1,2,,N 为标量,

X = ( x 1 , x 2 , ⋅ ⋅ ⋅ , x n ) T , W = ( w 1 , w 2 , ⋅ ⋅ ⋅ , w n ) T X=(x_1,x_2,···,x_n)^T,W=(w_1,w_2,···,w_n)^T X=(x1,x2,,xn)T,W=(w1,w2,,wn)T 表示权向量。

10.1.2 最大间隔超平面

D 0 D_0 D0 D 1 D_1 D1 完全正确地划分开的 W X + w 0 = 0 WX+w_0=0 WX+w0=0 就成了一个超平面。

最大间隔超平面:以最大间隔把两类样本分开的超平面。

10.1.3 支持向量

样本中距离超平面最近的一些点叫做支持向量。

10.2 线性判别函数和判别面

间隔的大小:
m a r g i n = 2 ∗ d = 2 ∣ ∣ W ∣ ∣ margin=2*d=\frac{2}{||W||} margin=2d=W2
即求:
min ⁡ 1 2 ∣ ∣ W ∣ ∣ 2 s . t .   y i ( W ⋅ X + w 0 ) ≥ 1 ( i = 1 , 2 , ⋅ ⋅ ⋅ , N ) \min\frac{1}{2}{||W||}^2\\ s.t. y_i(W\cdot X+w_0)\ge 1(i=1,2,···,N) min21W2s.t. yi(WX+w0)1(i=1,2,,N)
求解最优分类面:

建立拉格朗日函数:
Q ( λ ) = ∑ i = 1 N λ i − 1 2 ∑ i = 1 N ∑ j = 1 N λ i λ j y i y j X i ⋅ X j Q(\lambda)=\sum\limits_{i=1}^{N}\lambda_i-\frac{1}{2}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\lambda_i\lambda_jy_iy_jX_i\cdot X_j Q(λ)=i=1Nλi21i=1Nj=1NλiλjyiyjXiXj
寻找最大化目标函数 Q ( λ ) Q(\lambda) Q(λ) 的拉格朗日乘子 λ i i = 1 N {\lambda_i}_{i=1}^{N} λii=1N,满足约束条件:

( 1 ) ∑ i = 1 N λ i y i = 0 ( 2 ) λ i ≥ 0 , i = 1 , 2 , ⋅ ⋅ ⋅ , N (1)\sum\limits_{i=1}^{N}\lambda_iy_i=0 \\ (2)\lambda_i\ge 0,i=1,2,···,N 1i=1Nλiyi=02λi0,i=1,2,,N

(1) ∑ i = 1 N λ i y i = 0 \sum\limits_{i=1}^{N}\lambda_iy_i=0 i=1Nλiyi=0

(2) λ i ≥ 0 , i = 1 , 2 , ⋅ ⋅ ⋅ , N \lambda_i\ge 0,i=1,2,···,N λi0,i=1,2,,N

由对偶问题解得 λ ∗ = ( λ 1 , λ 2 , ⋅ ⋅ ⋅ , λ N ) T \lambda^*=(\lambda_1,\lambda_2,···,\lambda_N)^T λ=(λ1,λ2,,λN)T,然后依 K K T KKT KKT 条件就有
W ∗ = ∑ i = 1 N y i λ i ∗ X i W^*=\sum\limits_{i=1}^{N}y_i{\lambda_i}^*X_i W=i=1NyiλiXi
由于 λ i [ y i ( W ⋅ X i + w 0 ) − 1 ] = 0 \lambda_i[y_i(W\cdot X_i+w_0)-1]=0 λi[yi(WXi+w0)1]=0,所以可取 ∀ j ∈ { i ∣ λ i ∗ > 0 } \forall j\in\{i|{\lambda_i}^*> 0\} j{iλi>0},得
w 0 ∗ = y j − ∑ i = 1 N y i λ i ∗ X i ⋅ X j {w_0}^*=y_j-\sum\limits_{i=1}^{N}y_i{\lambda_i}^*X_i\cdot X_j w0=yji=1NyiλiXiXj
最后得到最优分类面:
W ∗ ⋅ X + w 0 ∗ = 0 W^*\cdot X+{w_0}^*=0 WX+w0=0

10.3 线性不可分下的判别面

三种情况下:

(1)特征向量都落在带状之外且都能正确分类。满足 y i ( W ⋅ X i + w 0 ) ≥ 1 y_i(W\cdot X_i+w_0)\ge 1 yi(WXi+w0)1

(2)有些向量落在带状内,但仍能正确分类。满足 0 ≤ y i ( W ⋅ X i + w 0 ) < 1 0\le y_i(W\cdot X_i+w_0)<1 0yi(WXi+w0)<1

(3)有些向量被错误分类。满足 y i ( W ⋅ X i + w 0 ) < 1 y_i(W\cdot X_i+w_0)<1 yi(WXi+w0)<1

此时,可以在条件项中增加一个松弛项 { ξ i } i = 1 N , ξ i > 0 \{\xi_i\}_{i=1}^{N},{\xi}_i>0 {ξi}i=1N,ξi>0,使之成为 y i ( W ⋅ X i + w 0 ) ≥ 1 − ξ i y_i(W\cdot X_i+w_0)\ge 1-{\xi}_i yi(WXi+w0)1ξi。第一种情况对应 ξ i = 0 {\xi}_i=0 ξi=0,第二种情况对应 0 < ξ i ≤ 1 0<{\xi}_i\le 1 0<ξi1,第三种情况对应 ξ i > 1 {\xi}_i>1 ξi>1

求解最优分类面:

建立拉格朗日函数:
max ⁡ λ ( ∑ i = 1 N λ i − ∑ i , j λ i λ j y i y j X i ⋅ X j ) \max_{\lambda}(\sum\limits_{i=1}^{N}\lambda_i-\sum\limits_{i,j}\lambda_i\lambda_jy_iy_jX_i\cdot X_j) λmax(i=1Nλii,jλiλjyiyjXiXj)
满足
0 ≤ λ i ≤ C , i = 1 , 2 , ⋅ ⋅ ⋅ , N ∑ i λ i y i = 0 0\le \lambda_i\le C,i=1,2,···,N\\ \sum\limits_{i}\lambda_iy_i=0 0λiC,i=1,2,,Niλiyi=0
根据 λ \lambda λ,求得 W 、 w 0 W、w_0 Ww0,得到最优分类面
W = ∑ i = 1 N λ i y i X i λ i [ y i ( W ⋅ X i + w 0 ) − 1 + ξ i ] = 0 W=\sum\limits_{i=1}^{N}\lambda_iy_iX_i\\ \lambda_i[y_i(W\cdot X_i+w_0)-1+{\xi}_i]=0 W=i=1NλiyiXiλi[yi(WXi+w0)1+ξi]=0

10.4 非线性可分下的判别函数

使用 φ : X ⟶ Y \varphi:X\longrightarrow Y φ:XY ,将所有样本映射到高维空间,那么分割超平面可以表示为: f ( x ) = W ⋅ φ ( x ) + w 0 f(x)=W\cdot \varphi(x)+w_0 f(x)=Wφ(x)+w0

求解:
max ⁡ ∑ i λ i − 1 2 ∑ i , j λ i λ j y i y j K ( X i , X j ) 0 ≤ λ i ≤ C , ∑ i λ i y i = 0 \max\sum\limits_{i}\lambda_i-\frac{1}{2}\sum\limits_{i,j}\lambda_i\lambda_jy_iy_jK(X_i,X_j)\\ 0\le \lambda_i\le C,\sum\limits_{i}\lambda_iy_i=0 maxiλi21i,jλiλjyiyjK(Xi,Xj)0λiC,iλiyi=0
先求出 λ i \lambda_i λi,进而求出 W 、 w 0 W、w_0 Ww0
W = ∑ i = 1 N λ i y i φ ( X i ) w 0 = y j − ∑ i = 1 N y i λ i ∗ φ ( X i ) ⋅ φ ( X j ) W=\sum\limits_{i=1}^{N}\lambda_iy_i\varphi(X_i)\\ w_0=y_j-\sum\limits_{i=1}^{N}y_i{\lambda_i}^*\varphi(X_i)\cdot \varphi(X_j) W=i=1Nλiyiφ(Xi)w0=yji=1Nyiλiφ(Xi)φ(Xj)
这里, j j j 使得 λ j > 0 \lambda_j>0 λj>0。最优非线性分类面为:
g ( X ) = W ⋅ φ ( X ) + w 0 = ∑ i = 1 N λ i y i K ( X i , X j ) + w 0 g(X)=W\cdot \varphi(X)+w_0=\sum\limits_{i=1}^{N}\lambda_iy_iK(X_i,X_j)+w_0 g(X)=Wφ(X)+w0=i=1NλiyiK(Xi,Xj)+w0
其中 K ( X , X j ) K(X,X_j) K(X,Xj) 为核函数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值