svm 支持向量机

最新推荐文章于 2023-06-16 17:08:55 发布

howardact

最新推荐文章于 2023-06-16 17:08:55 发布

阅读量671

点赞数 1

分类专栏： machineLearning

本文链接：https://blog.csdn.net/howardact/article/details/53640117

版权

machineLearning 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

python实现svm程序
 python实现svm精简版

1、线性可分SVM

1.1 、数据集及最终分类器形式

假设特征空间上的训练数据集：

T = {(x 1, y 1), (x 2, y 2), . . ., (x N, y N)}

$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$

$x_i为特征向量，y_i\in \{+1,-1\}$

给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到分离超平面：

w * \cdot x + b * = 0 (1.1.1)

$w^*\cdot x + b^*=0\tag{1.1.1}$

相应的分类决策函数为：
$f (x) = s i g n (w * \cdot x + b *) (1.1.2)$ $f(x)=sign(w^*\cdot x + b^*)\tag{1.1.2}$

1.2、函数间隔和几何间隔定义

$超平面(w,b)关于$ 样本点的函数间隔

$γ i^= y i \cdot (w \cdot x i + b) (1.2.1)$ $\hat{\gamma_i}= y_i\cdot (w\cdot x_i + b)\tag{1.2.1}$
$超平面(w,b)关于$ 数据集T的函数间隔:

γ^= m i n i = 1, 2, . . ., N γ i^(1.2.2)

$\hat{\gamma} = \underset{i=1,2,...,N}{min} \hat{\gamma_i}\tag{1.2.2}$

$超平面(w,b)与$ 样本点的几何间隔:

γ i = y i \cdot (w | | w | | \cdot x i + b | | w | |) (1.2.3)

$\gamma_i = y_i\cdot \left(\frac{w}{||w||}\cdot x_i+\frac{b}{||w||}\right)\tag{1.2.3}$

$超平面(w,b)关于$ 数据集T的几何间隔

γ = m i n i = 1, 2, . . ., N γ i (1.2.4)

$\gamma = \underset{i=1,2,...,N}{min}\gamma_i\tag{1.2.4}$

1.3、最大间隔超平面定义

几何间隔表示约束最优化问题：

m a x w, b γ (1.3.1)

$\underset{w,b}{max} \ \ \ \gamma\tag{1.3.1}$

s . t . y i \cdot (w | | w | | \cdot x i + b | | w | |) \geq γ, i = 1, 2, . . ., N (1.3.2)

$s.t. \ \ \ y_i\cdot \left(\frac{w}{||w||}\cdot x_i+\frac{b}{||w||}\right) \geq \gamma,\ \ \ i = 1,2,...,N\tag{1.3.2}$

函数间隔表示约束最优化问题：

m a x w, b γ ^ | | w | | (1.3.3)

$\underset{w,b}{max} \ \ \ \frac{\hat{\gamma}}{||w||}\tag{1.3.3}$

s . t . y i \cdot (w \cdot x i + b) \geq γ^, i = 1, 2, . . ., N (1.3.4)

$s.t. \ \ \ y_i\cdot \left(w\cdot x_i+b\right) \geq \hat{\gamma},\ \ \ i = 1,2,...,N\tag{1.3.4}$

函数间隔 $\hat{\gamma}$ 的取值并不影响最优化问题的解，所以令 $\hat{\gamma}$ =1，得到等价的约束最优化问题：

m i n w, b 1 2 | | w | | 2 (1.3.5)

$\underset{w,b}{min} \ \frac{1}{2} ||w||^2\tag{1.3.5}$

s . t . y i \cdot (w \cdot x i + b) - 1 \geq 0, i = 1, 2, . . ., N (1.3.6)

$s.t. \ \ \ y_i\cdot \left(w\cdot x_i+b\right)-1 \geq 0,\ \ \ i = 1,2,...,N\tag{1.3.6}$

1.4、带约束的优化问题，构建拉格朗日函数

$构造拉格朗日函数，对每一个不等式约束引入拉格朗日乘子 \alpha_i \geq 0,i = 1,2,...,N,定义拉格朗日函数$

L (w, b, a) = = 1 2 | | w | | 2 + \sum i = 1 N α i (1 - y i (w x i + b)) 1 2 | | w | | 2 - \sum i = 1 N α i y i (w x i + b) + \sum i = 1 N α i (1.4.1)

$\begin{eqnarray} L(w,b,a)&=&\frac{1}{2}||w||^2+\sum_{i=1}^{N}\alpha_i \left ( 1-y_i(wx_i+b) \right ) \\ &=&\frac{1}{2}||w||^2-\sum_{i=1}^{N}\alpha_iy_i(wx_i+b)+\sum_{i=1}^{N}\alpha_i\tag{1.4.1} \end{eqnarray}$

$\alpha = (\alpha_1,\alpha_2,\cdots,\alpha_N)^T为拉格朗日乘子向量$
原始问题描述：

$m a x α L (w, b, α) = 1 2 | | w | | 2$ $\underset{\alpha}{max}L(w,b,\alpha)=\frac{1}{2}||w||^2$
$m i n w, b 1 2 | | w | | 2 = m i n w, b m a x α L (w, b, α)$ $\underset{w,b}{min}\frac{1}{2}||w||^2= \underset{w,b}{min} \ \underset{\alpha}{max}L(w,b,\alpha)$
$根据拉格朗日对偶性，在满足kkt条件下原始问题的对偶问题是极大极小问题：$
$m a x α m i n w, b L (w, b, α) (1.4.2)$ $\underset{\alpha}{max} \ \ \underset{w,b}{min}L(w,b,\alpha)\tag{1.4.2}$

求 $\underset{w,b}{min}L(w,b,\alpha)$
将拉格朗日函数 $L(w,b,\alpha)分别对w,b求偏导并令其等于0$
$▽ w L (w, b, α) ▽ b L (w, b, α) = = w - \sum i = 1 N α i y i x i = 0 - \sum i = 1 N α i y i = 0 (1.4.3) (1.4.4)$ $\begin{eqnarray} \bigtriangledown_wL(w,b,\alpha)&=&w- \sum_{i=1}^{N}\alpha_iy_ix_i=0\tag{1.4.3} \\ \bigtriangledown_bL(w,b,\alpha)&=&-\sum_{i=1}^{N}\alpha_iy_i = 0\tag{1.4.4} \end{eqnarray}$
得到：
$w = \sum i = 1 N α i y i x i (1.4.5)$ $w= \sum_{i=1}^{N}\alpha_iy_ix_i\tag{1.4.5}$
$\sum i = 1 N α i y i = 0 (1.4.6)$ $\sum_{i=1}^{N}\alpha_iy_i = 0\tag{1.4.6}$
$将1.4.5和1.4.6带入1.4.1得$ ：
$m i n w, b L (w, b, α) = = 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i y i ⎛ ⎝ (\sum j = 1 N α j y j x j) \cdot x i + b ⎞ ⎠ + \sum i = 1 N α i - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i (1.4.7)$ $\begin{eqnarray} \underset{w,b}{min}L(w,b,\alpha) &=& \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j) - \sum_{i=1}^{N}\alpha_iy_i\left((\sum_{j=1}^{N}\alpha_jy_jx_j)\cdot x_i + b\right)+ \sum_{i=1}^{N}\alpha_i \\ &=& -\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+ \sum_{i=1}^{N}\alpha_i\tag{1.4.7} \end{eqnarray}$
即：
$m i n w, b L (w, b, α) = - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i (1.4.8)$ $\underset{w,b}{min}L(w,b,\alpha)=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+ \sum_{i=1}^{N}\alpha_i\tag{1.4.8}$
$求\underset{w,b}{min} \ L(w,b,\alpha)对\alpha的极大，即对偶问题：$

m a x α s . t . - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i \sum i = 1 N α i y i = 0 α i \geq 0, i = 1, 2, . . ., N

$\begin{eqnarray} \underset{\alpha}{max} && -\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+ \sum_{i=1}^{N}\alpha_i \\ s.t. && \sum_{i=1}^{N}\alpha_iy_i = 0 \\ & & \alpha_i \geq 0,\ \ i = 1,2,...,N \end{eqnarray}$

由极大值转换成极小值，得到下面与之等价的对偶最优化问题：

m i n α s . t . 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i \sum i = 1 N α i y i = 0 α i \geq 0, i = 1, 2, . . ., N (1.4.9) (1.4.10) (1.4.11)

$\begin{eqnarray} \underset{\alpha}{min} && \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j) - \sum_{i=1}^{N}\alpha_i\tag{1.4.9} \\ s.t. && \sum_{i=1}^{N}\alpha_iy_i = 0\tag{1.4.10} \\ & & \alpha_i \geq 0,\ \ i = 1,2,...,N\tag{1.4.11} \end{eqnarray}$

根据KKT条件得：

$w * = \sum i = 1 N α * i y i x i b * = y j - \sum i = 1 N α * i y i (x i \cdot x j) (1.4.12) (1.4.13)$ $\begin{eqnarray} &&w^*=\sum_{i=1}^{N}\alpha^{*}_{i}y_ix_i\tag{1.4.12} \\&&b^*=y_j-\sum_{i=1}^{N}\alpha^{*}_{i}y_i(x_i\cdot x_j)\tag{1.4.13} \end{eqnarray}$

$\alpha$ 可以通过smo算法求出
分类决策函数可以写成：

f(x)=sign(∑i=1Nα∗iyi(x⋅xj)+b∗)(1.4.14)
- 证明：kkt条件如下：
  $▽ w L (w *, b *, α *) = w * - \sum i = 1 N α i y i x i = 0 ▽ b L (w *, b *, α *) = - \sum i = 1 N α i y i = 0 α * i (y i (w * \cdot x i + b *) - 1) = 0 i = 1, 2, . . ., N y i (w * \cdot x i + b *) - 1 ⩾ 0, i = 1, 2, . . ., N α * i ⩾ 0, i = 1, 2, . . ., N (1.4.15) (1.4.16) (1.4.17) (1.4.18) (1.4.19)$ $\begin{eqnarray} &&\bigtriangledown_wL(w^*,b^*,\alpha^*) = w^*-\sum_{i=1}^{N}\alpha_iy_ix_i=0 \tag{1.4.15} \\ && \bigtriangledown_bL(w^*,b^*,\alpha^*) = -\sum_{i=1}^{N}\alpha_iy_i=0 \tag{1.4.16} \\ && \alpha_i^*(y_i(w^*\cdot x_i+b^*)-1)=0 \ i=1,2,...,N\tag{1.4.17} \\&& y_i(w^*\cdot x_i +b^*)-1 \geqslant 0 ,\ i = 1,2,...,N\tag{1.4.18} \\ && \alpha_i^* \geqslant 0, i=1,2,...,N\tag{1.4.19} \end{eqnarray}$
  由此得：
  $w * = \sum i = 1 N α * i y i x i (1.4.20)$ $w^*=\sum_{i=1}^{N}\alpha_i^*y_ix_i\tag{1.4.20}$
  至少有一个 $\alpha_j^*>0(支持向量)，对此j有：$
  $y j (w * \cdot x j + b *) - 1 = 0 (1.4.21)$ $y_j(w^*\cdot x_j +b^*)-1=0\tag{1.4.21}$
  $y_j^2=1$ 所以：
  $b * = y j - \sum i = 1 N α * i y i (x i \cdot x j) (1.4.22)$ $b^*=y_j-\sum_{i=1}^{N}\alpha^{*}_{i}y_i(x_i\cdot x_j)\tag{1.4.22}$

2、线性不可分SVM

2.1、线性不可分问题描述

线性不可分的线性支持向量机的学习问题变成如下凸二次规划问题：

m i n w, b, ξ s . t . 1 2 | | w | | 2 + \sum i = 1 N C ξ i y i (w * x i + b) \geq 1 - ξ i, i = 1, 2, . . ., N ξ i \geq 0, i = 1, 2, . . . ., N (2.1.1) (2.1.2) (2.1.3)

$\begin{eqnarray} \underset{w,b,\xi}{min} && \frac{1}{2}||w||^2 + \sum_{i=1}^{N}C\xi_i\tag{2.1.1} \\ s.t. && y_i(w*x_i + b) \geq 1- \xi_i,\ i= 1,2,...,N\tag{2.1.2} \\ && \xi_i \geq 0 ,\ i = 1,2,....,N\tag{2.1.3} \end{eqnarray}$

并非所有点都有松弛变量 $\ \xi$ ,超越分类边界内的才有，在边界上及以外的点 $\ \xi=0$
$\ \xi \$ 越大表示在边界内且离分类边界越远
C惩罚因子，表示对边界内的样本的惩罚。C越大目标函数损失越大，C无限大为硬间隔问题。

2.2、构造拉格朗日函数并求解

L (w, b, ξ, α, μ) = 1 2 | | w | | 2 + \sum i = 1 N C ξ i - \sum i = 1 N α i (y i (w * x i + b) - 1 + ξ i) - \sum i = 1 N μ i ξ i (2.2.1)

$L(w,b,\xi,\alpha,\mu)= \frac{1}{2}||w||^2 + \sum_{i=1}^{N}C\xi_i -\sum_{i=1}^{N}\alpha_i \left ( y_i(w*x_i + b) -1 + \xi_i \right ) -\sum_{i=1}^{N}\mu_i\xi_i\tag{2.2.1}$

$m a x α, μ L (w, b, ξ, α, μ) = 1 2 | | w | | 2 + \sum i = 1 N C ξ i m i n w, b, ξ 1 2 | | w | | 2 + \sum i = 1 N C ξ i = m i n w, b, ξ m a x α, μ L (w, b, ξ, α, μ) ⩽ m a x α, μ m i n w, b, ξ L (w, b, ξ, α, μ)$ $\begin{eqnarray} &&\underset{\alpha,\mu}{max}L(w,b,\xi,\alpha,\mu)= \frac{1}{2}||w||^2 + \sum_{i=1}^{N}C\xi_i \\&& \underset{w,b,\xi}{min} \ \frac{1}{2}||w||^2 + \sum_{i=1}^{N}C\xi_i = \underset{w,b,\xi}{min} \ \underset{\alpha,\mu}{max}L(w,b,\xi,\alpha,\mu) \leqslant \underset{\alpha,\mu}{max} \ \underset{w,b,\xi}{min}L(w,b,\xi,\alpha,\mu) \end{eqnarray}$

$求\underset{w,b,\xi}{min}L(w,b,\xi,\alpha,\mu) ,拉格朗日函数分别对w,b,\xi \ 求偏导:$

$▽ w L (w, b, ξ, α, μ) ▽ b L (w, b, ξ, α, μ) ▽ ξ i L (w, b, ξ, α, μ) = = = w - \sum i = 0 N α i y i x i = 0 - \sum i = 0 N α i y i = 0 C - α i - μ i = 0 (2.2.2) (2.2.3) (2.2.4)$ $\begin{eqnarray} \bigtriangledown_wL(w,b,\xi,\alpha,\mu)&=&w-\sum_{i=0}^{N}\alpha_iy_ix_i=0\tag{2.2.2} \\\bigtriangledown_bL(w,b,\xi,\alpha,\mu)&=&-\sum_{i=0}^{N}\alpha_iy_i=0\tag{2.2.3} \\\bigtriangledown_{\xi_i} L(w,b,\xi,\alpha,\mu)&=&C-\alpha_i -\mu_i=0\tag{2.2.4} \end{eqnarray}$
得：
$w = \sum i = 0 N α i y i x i \sum i = 0 N α i y i = 0 C - α i - μ i = 0 (2.2.5) (2.2.6) (2.2.7)$ $\begin{eqnarray} \\ &&w = \sum_{i=0}^{N}\alpha_iy_ix_i\tag{2.2.5} \\ &&\sum_{i=0}^{N}\alpha_iy_i=0\tag{2.2.6} \\&&C-\alpha_i -\mu_i=0\tag{2.2.7} \end{eqnarray}$
将2.2.5，2.2.6，2.2.7带入2.2.1得：
$m i n w, b, ξ L (w, b, ξ, α, μ) = - 1 2 \sum i = 1 n \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i (2.2.8)$ $\underset{w,b,\xi}{min}L(w,b,\xi,\alpha,\mu)=-\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{N} \alpha_i \alpha_{j}y_iy_j(x_i \cdot x_j) + \sum_{i=1}^{N}\alpha_i\tag{2.2.8}$
$在对\underset{w,b,\xi}{min}L(w,b,\xi,\alpha,\mu)求关于\alpha的极大，即对偶问题：$

m a x α s . t . - 1 2 \sum i = 1 n \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i \sum i = 1 N α i y i = 0 C - α i - μ i = 0 α i \geq 0 μ i \geq 0, i = 1, 2, . . ., N (2.2.9) (2.2.10) (2.2.11) (2.2.12) (2.2.13)

$\begin{eqnarray} \underset{\alpha}{max} && -\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{N} \alpha_i \alpha_{j}y_iy_j(x_i \cdot x_j) + \sum_{i=1}^{N}\alpha_i\tag{2.2.9} \\ s.t. && \sum_{i=1}^{N}\alpha_iy_i=0\tag{2.2.10} \\ && C-\alpha_i-\mu_i=0\tag{2.2.11} \\ && \alpha_i \geq 0\tag{2.2.12} \\ && \mu_i \geq 0, \ \ i =1,2,...,N\tag{2.2.13} \end{eqnarray}$

可以简化成如下形式：

m i n α s . t . 1 2 \sum i = 1 n \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i \sum i = 1 N α i y i = 0 0 ⩽ α i ⩽ C, i = 1, 2, . . ., N (2.2.14) (2.2.15) (2.2.16)

$\begin{eqnarray} \underset{\alpha}{min} && \frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{N} \alpha_i \alpha_{j}y_iy_j(x_i \cdot x_j) - \sum_{i=1}^{N}\alpha_i\tag{2.2.14} \\ s.t. && \sum_{i=1}^{N}\alpha_iy_i=0\tag{2.2.15} \\ && 0 \leqslant \alpha_i \leqslant C , i=1,2,...,N\tag{2.2.16} \end{eqnarray}$

α可根据smo求得，若存在一个分量α∗j,0<α∗j<C,满足kkt条件可得：

w∗=∑i=1Nα∗iyixib∗=yj−∑i=1Nyiα∗i(xi⋅xj)(2.2.17)(2.2.18)

分类决策函数可以写成：

f(x)=sign(∑i=1Nα∗iyi(x⋅xj)+b∗)
- 证明：原始问题是凸二次规划问题，满足KKT条件，得：
  $▽ w L (w *, b *, ξ *, α *, μ *) = w * - \sum i = 1 N α * i y i x i = 0 ▽ b L (w *, b *, ξ *, α *, μ *) = - \sum i = 1 N α * i y i = 0 ▽ ξ L (w *, b *, ξ *, α *, μ *) = C - α * - μ * = 0 α * i (y i (w * \cdot x i + b) - 1 + ξ * i) = 0 μ * i ξ * i = 0 y i (w * \cdot x i + b) - 1 + ξ * i ⩾ 0 ξ * i ⩾ 0 α * i ⩾ 0 μ * i ⩾ 0, i = 1, 2, . . ., N (2.2.19) (2.2.20) (2.2.21) (2.2.22) (2.2.23) (2.2.24) (2.2.25) (2.2.26) (2.2.27)$ $\begin{eqnarray} &&\bigtriangledown_wL(w^*,b^*,\xi^*,\alpha^*,\mu^*)=w^*-\sum_{i=1}^{N}\alpha_i^*y_ix_i=0\tag{2.2.19} \\ &&\bigtriangledown_bL(w^*,b^*,\xi^*,\alpha^*,\mu^*)=-\sum_{i=1}^{N}\alpha_i^*y_i=0\tag{2.2.20} \\ &&\bigtriangledown_\xi L(w^*,b^*,\xi^*,\alpha^*,\mu^*)=C-\alpha^*-\mu^*=0\tag{2.2.21} \\ &&\alpha_i^*(y_i(w^*\cdot x_i +b)-1 + \xi_i^*)=0\tag{2.2.22} \\ &&\mu_i^*\xi_i^*=0\tag{2.2.23} \\ &&y_i(w^*\cdot x_i +b)-1 + \xi_i^* \geqslant 0\tag{2.2.24} \\ &&\xi_i^* \geqslant 0\tag{2.2.25} \\ &&\alpha_i^* \geqslant 0\tag{2.2.26} \\ &&\mu_i^* \geqslant 0, i=1,2,...,N\tag{2.2.27} \end{eqnarray}$
  根据2.2.19得：
  $w * = \sum i = 1 N α * i y i x i (2.2.17)$ $w^*=\sum_{i=1}^{N}\alpha_i^*y_ix_i\tag{2.2.17}$
- $当0<\alpha_j^*<C$
  $根据C-\alpha^*-\mu^*=0得\mu_i^*=C-\alpha_i^*>0$
  $\mu_i^*\xi_i^*=0,所以\xi_i^*=0$
  $\alpha_i^*(y_i(w^*\cdot x_i +b)-1 + \xi_i^*)=0,且0<\alpha_j^*<C，且\xi_i^*=0$
  $得y_i(w^*\cdot x_i +b)-1=0,$ 此点为分类边界上的点,支持向量点
  $b * = y j - \sum i = 1 N y i α * i (x i \cdot x j) (2.2.18)$ $b^*=y_j-\sum_{i=1}^{N}y_i\alpha_i^*(x_i\cdot x_j)\tag{2.2.18}$
- $当\alpha_i^*=0$
  $根据C-\alpha^*-\mu^*=0得C=\mu_i^*>0$
  $根据\mu_i^*\xi_i^*=0,得\xi_i^*=0,$
  $\xi_i^*=0并且y_i(w^*\cdot x_i +b)-1 + \xi_i^* \geqslant 0$
  $y_i(w^*\cdot x_i +b)\geqslant1$ ,此点为分类边界外的样本点
- $当\alpha_i^*=C$
  $根据C-\alpha^*-\mu^*=0得\mu_i^*=0$
  $根据\mu_i^*\xi_i^*=0,得\xi_i^* \geqslant 0,$
  $\alpha_i^*=C且\alpha_i^*(y_i(w^*\cdot x_i +b)-1 + \xi_i^*)=0，所以y_i(w^*\cdot x_i +b)-1 + \xi_i^*=0$
  $\xi_i^*\geqslant 0并且y_i(w^*\cdot x_i +b)-1 + \xi_i^*= 0得y_i(w^*\cdot x_i +b)=1-\xi_i^*$
  $得y_i(w^*\cdot x_i +b)\leqslant 1$ ,此点为分类边界内的样本点

3、 SVM核函数

核函数定义
$假设\chi是输入空间，又设H为特征空间，如果存在一个从\chi到H的映射（函数）满足：$

$ϕ (x) : χ \to H$ $\phi(x):\chi \rightarrow H$
$使得对所有x，z \in \chi,函数K(x,z)满足：$
$K (x, z) = ϕ (x) \cdot ϕ (z)$ $K(x,z)=\phi(x)\cdot \phi(z)$
$则称K(x,z)为核函数，\phi(x)为映射函数$
线性分类器求解非线性分类问题分为两步：
1. 使用一个变换将原来数据映射到新的空间，
2. 在新空间里用线性分类学习方法从训练数据中学习分类模型。
常用核函数
- 线性核函数
  $κ (x, x i) = x \cdot x i$ $\kappa(x, x_i) =x \cdot x_i$
- 多项式核函数
  $κ (x, x i) = (γ (x \cdot x i) + γ) d, γ > 0$ $\kappa(x, x_i) = (\gamma(x\cdot x_i) + \gamma)^d ,\gamma>0$
- 高斯核函数（径向基函数）
  $κ (x, x i) = e x p (- | | x - x i | | 2 δ 2)$ $\kappa(x, x_i) = exp(-\frac{||x - x_i||^2}{\delta^2})$
- sigmoid核函数
  $κ (x, x i) = t a n h (η < x, x i > + θ)$ $\kappa(x, x_i) = tanh(\eta<x, x_i> + \theta)$
  $t a n h (x) = s i n h ( x ) c o s h ( x ) = e x - e - x e x + e - x$ $tanh(x)=\frac{sinh(x)}{cosh(x)}=\frac{e^x-e^{-x}}{e^x+e^{-x}}$

x = -5:0.01:5; 
plot(x,tanh(x)), grid on

选用技巧
1. 如果Feature的数量很大，跟样本数量差不多，这时候选用LR或者是Linear Kernel的SVM
2. 如果Feature的数量比较小，样本数量一般，不算大也不算小，选用SVM+Gaussian Kernel
3. 如果Feature的数量比较小，而样本数量很多，需要手工添加一些feature变成第一种情况

4、拉格朗日对偶性

带约束的极值问题：
$假设f(x),c_i(x),h_j(x)是定义在R^n上的连续可微函数，考虑约束最优化问题：$
$m i n x \in R n s . t . f (x) c i (x) ⩽ 0, i = 1, 2, . . ., k h j (x) = 0, j = 1, 2, . . ., l$ $\begin{eqnarray} \underset{x\in R^n}{min} && f(x) \\s.t. && c_i(x) \leqslant 0, \ \ i = 1,2,...,k \\ && h_j(x) = 0, j = 1,2,...,l \end{eqnarray}$
原始问题
首先引入广义拉格朗日函数（generalize Lagrange function）
$L (x, α, β) = f (x) + \sum i = 1 k α i c i (x) + \sum j = 1 l β j h j (x)$ $L(x,\alpha,\beta)=f(x) + \sum_{i=1}^{k}\alpha_ic_i(x)+\sum_{j=1}^{l}\beta_jh_j(x)$
$这里,x=(x^{(1)},x^{(2)},...,x^{(n)})^T\in R^n,\alpha_i,\beta_j是拉格朗日乘子，\alpha_i \geqslant 0,考虑x的函数：$

θ p (x) = m a x α, β : α i ⩾ 0 L (x, α, β)

$\theta_p(x)=\underset{\alpha,\beta:\alpha_i \geqslant 0}{max}L(x,\alpha,\beta)$

θ p (x) = {f (x), + \infty ， x 满 足 原 始 问 题 约 束 其 他

$\theta_p(x)=\left \{ \begin{matrix} f(x),&x满足原始问题约束 \\ +\infty，&其他 \end{matrix} \right.$

p * = m i n x θ p (x) = m i n x m a x α, β; α i ⩾ 0 L (x, α, β)

$p^* = \underset{x}{min}\theta_p(x)=\underset{x}{min}\underset{\alpha,\beta;\alpha_i \geqslant 0}{max}L(x,\alpha,\beta)$

对偶问题：
定义：

$θ D (α, β) = m i n x L (x, α, β)$ $\theta_D(\alpha,\beta)=\underset{x}{min}L(x,\alpha,\beta)$
$m a x α, β; α ⩾ 0 θ D (α, β) = m a x α, β; α ⩾ 0 m i n x L (x, α, β)$ $\underset{\alpha,\beta;\alpha \geqslant 0}{max}\theta_D(\alpha,\beta)=\underset{\alpha,\beta;\alpha \geqslant 0}{max}\underset{x}{min}L(x,\alpha,\beta)$

$问题\underset{\alpha,\beta;\alpha \geqslant 0}{max}\underset{x}{min}L(x,\alpha,\beta)称为广义拉格朗日函数的极大极小问题$
原始问题和对偶问题都有最优值，则：

$d * = m a x α, β; α ⩾ 0 m i n x L (x, α, β) ⩽ m i n x m a x α, β; α i ⩾ 0 L (x, α, β) = p *$ $d^*=\underset{\alpha,\beta;\alpha \geqslant 0}{max}\underset{x}{min}L(x,\alpha,\beta) \leqslant \underset{x}{min}\underset{\alpha,\beta;\alpha_i \geqslant 0}{max}L(x,\alpha,\beta)=p^*$
对原始问题和对偶问题，假设函数 $f(x)和c_j(x)$ 是凸函数， $h_j(x)$ 是仿射函数，并且不等式约束c_i(x)是严格可行的，则 $x^*和\alpha^*,\beta*$ 分别对原始问题和对偶问题的解的充分必要条件 $是x^*和\alpha^*,\beta^*满足下面的Karush-Kuhn-Tucker(KKT)条件：$

▽ x L (x *, α *, β *) = 0 ▽ α L (x *, α *, β *) = 0 ▽ β L (x *, α *, β *) = 0 α * i c i (x *) = 0, i = 1, 2, . . ., k c i (x *) ⩽ 0, i = 1, 2, . . ., k a * i ⩾ 0, i = 1, 2, . . ., k h i (x *) = 0,, i = 1, 2, . . ., k

$\begin{eqnarray} &&\bigtriangledown_xL(x^*,\alpha^*,\beta^*)=0 \\ &&\bigtriangledown_\alpha L(x^*,\alpha^*,\beta^*)=0 \\ &&\bigtriangledown_\beta L(x^*,\alpha^*,\beta^*)=0 \\ &&\alpha_i^*c_i(x^*)=0, \ \ i=1,2,...,k \\ &&c_i(x^*) \leqslant 0, \ \ i=1,2,...,k \\ && a_i^* \geqslant 0 , \ \ i=1,2,...,k \\ && h_i(x^*) =0,, \ \ i=1,2,...,k \end{eqnarray}$

5、SMO算法

5.1、问题描述及变种

SMO算法要解如下凸优化的对偶问题：

$m i n α s . t . 1 2 \sum i = 1 n \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i \sum i = 1 N α i y i = 0 0 ⩽ α i ⩽ C, i = 1, 2, . . ., N (2.2.14) (2.2.15) (2.2.16)$ $\begin{eqnarray} \underset{\alpha}{min} && \frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{N} \alpha_i \alpha_{j}y_iy_j(x_i \cdot x_j) - \sum_{i=1}^{N}\alpha_i\tag{2.2.14} \\ s.t. && \sum_{i=1}^{N}\alpha_iy_i=0\tag{2.2.15} \\ && 0 \leqslant \alpha_i \leqslant C , i=1,2,...,N\tag{2.2.16} \end{eqnarray}$
$对于等式约束，\sum_{i=1}^{N}\alpha_iy_i=0，假设选择两个变量\alpha_1,\alpha_2,其他变量\alpha_i(i=3,4,...,N)是固定的，于是SMO的最优化问题的子问题可以写成：$

$m i n α 1, α 2 W (α 1, α 2) = 1 2 K 11 α 21 + 1 2 K 22 α 22 + y 1 y 2 K 12 α 1 α 2 - (α 1 + α 2) + y 1 α 1 \sum i = 3 N y i α i K i 1 + y 2 α 2 \sum i = 3 N y i α i K i 2 + c o n s t a n t (5.1.1)$ $\underset{\alpha_1,\alpha_2}{min} \ \ W(\alpha_1,\alpha_2)=\frac{1}{2}K_{11}\alpha_1^2 +\frac{1}{2}K_{22}\alpha_2^2 + y_1y_2K_{12}\alpha_1\alpha_2-(\alpha_1+\alpha_2)+y_1\alpha_1\sum_{i=3}^{N}y_i\alpha_iK_{i1}+y_2\alpha_2\sum_{i=3}^{N}y_i\alpha_iK_{i2} + constant\tag{5.1.1}$

s . t . α 1 y 1 + α 2 y 2 = - \sum i = 3 N y i α i = ζ 0 ⩽ α i ⩽ C, i = 1, 2 (5.1.2) (5.1.3)

$\begin{eqnarray} s.t. && \alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^{N}y_i\alpha_i=\zeta \tag{5.1.2} \\ && 0 \leqslant \alpha_i \leqslant C, i=1,2\tag{5.1.3} \end{eqnarray}$
其中，

Kij=K(xi,xj),i,j=1,2,...,N,ζ是常数，constant为常数项 $K_{ij}=K(x_i,x_j),i,j=1,2,...,N,\zeta 是常数，constant为常数项$

5.2、 $确定\alpha_2边界$

保证等式约束：

\sum i = 1 N α i y i = 0

$\sum_{i=1}^{N}\alpha_iy_i=0$

同时更新α1和α2,并保证下面式子 $同时更新\alpha_1和\alpha_2,并保证下面式子$ ：

α n e w 1 y 1 + α n e w 2 = α o l d 1 y 1 + α o l d 2 y 2 = ζ (5.2.1)

$\alpha_1^{new}y_1 + \alpha_2^{new}=\alpha_1^{old}y_1 + \alpha_2^{old}y_2=\zeta \tag{5.2.1}$

$\alpha_1^{old}y_1 + \alpha_2^{old}y_2=\zeta 当y_1 \neq y_2时候,$

直线斜率为1，当截距大于0（红线）时y1=−1,y2=1 $直线斜率为1，当截距大于0（红线）时y_1=-1,y_2 = 1$ ，

α 2 \in [- ζ, C] 即 [α o l d 2 - α o l d 1, C]

$\alpha_2 \in [-\zeta ,C] \ 即 \ [\alpha_2^{old}-\alpha_1^{old},C]$

直线斜率为1，当截距小于0（蓝线）时，y1=1,y2=−1 $直线斜率为1，当截距小于0（蓝线）时，y_1=1,y_2=-1$ ，

α 2 \in [0, C - ζ] 即 [0, C + α o l d 2 - α o l d 1]

$\alpha_2 \in [0 ,C-\zeta] \ 即 \ [0,C+\alpha_2^{old}-\alpha_1^{old}]$

所以α2的上下界分别为： $所以\alpha_2的上下界分别为：$

L = m a x (0, α o l d 2 - α o l d 1), H = m i n (C, C + α o l d 2 - α o l d 1)

$L=max(0,\alpha_2^{old}-\alpha_1^{old}),H=min(C,C+\alpha_2^{old}-\alpha_1^{old})$

$同理，当y_1 = y_2时候$
$L = m a x (0, α o l d 2 + α o l d 1 - C), H = m i n (C, α o l d 2 + α o l d 1)$ $L=max(0,\alpha_2^{old}+\alpha_1^{old}-C),H=min(C,\alpha_2^{old}+\alpha_1^{old})$

5.3、 $更新\alpha_2,\alpha_1$

令

u = \sum i = 1 N α i y i k (x i, x) - b

$u =\sum_{i=1}^{N}\alpha_iy_ik(x_i,x)-b$

根据公式5.1.1，最优化问题沿着约束方向未经剪辑时的解是：

α n e w 2 = α o l d 2 + y 2 ( E 1 - E 2 ) η

$\alpha_2^{new}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}$
其中：

E 1 E 2 η = = = u 1 - y 1 u 2 - y 2 K 11 + K 22 - 2 K 12

$\begin{eqnarray} E_1 &=& u_1 -y_1 \\ E_2 &=& u_2 - y_2 \\ \eta &=& K_{11} +K_{22} -2K_{12} \end{eqnarray}$

在kkt条件下，α2必须在[L,H]内： $在kkt条件下，\alpha_2必须在[L,H]内：$

α n e w 2 = ⎧ ⎩ ⎨ ⎪ ⎪ H, α n e w, u n c 2, L α n e w, u n c 2 > H L ⩽ α n e w, u n c 2 ⩽ H α n e w, u n c 2 < L

$\alpha_2^{new}=\left\{\begin{matrix} H,&\alpha_2^{new,unc} >H\\ \alpha_2^{new,unc},& L \leqslant \alpha_2^{new,unc} \leqslant H \\ L& \alpha_2^{new,unc}<L \end{matrix}\right.$

更新α1: $更新\alpha_1:$

α n e w 1 = α o l d 1 + y i y 2 (α o l d 2 - α n e w 2)

$\alpha_1^{new}=\alpha_1^{old}+y_iy_2(\alpha_2^{old}-\alpha_2^{new})$

如何求得α1和α2呢？对于α1,最不满足kkt条件的来寻找，对于α2可通过max|E1−E2|来寻找。而b的更新为： $如何求得\alpha_1和\alpha_2呢？对于\alpha_1,最不满足kkt条件的来寻找，对于\alpha_2可通过max|E_1-E_2|来寻找。而b的更新为：$

b = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ b 1 b 2 1 2 (b 1 + b 2) 0 < a 1 < C 0 < a 2 < C o t h e r s

$b=\left \{ \begin{matrix} b_1 & 0<a_1<C \\ b_2 & 0<a_2<C \\ \frac{1}{2}(b_1+b_2) &others \end{matrix}\right.$

b 1 = b - E 1 - y 1 K 11 (α n e w 1 - α o l d 1) - y 2 K 21 (α n e w 2 - α o l d 2) b 2 = b - E 2 - y 1 K 12 (α n e w 1 - α o l d 1) - y 2 K 22 (α n e w 2 - α o l d 2)

$\begin{eqnarray} b_1=b-E_1-y_1K_{11}(\alpha_1^{new}-\alpha_1^{old})-y_2K_{21}( \alpha_2^{new}-\alpha_2^{old}) \\ b2 = b-E_2-y_1K_{12}(\alpha_1^{new}-\alpha_1^{old})-y_2K_{22}( \alpha_2^{new}-\alpha_2^{old}) \end{eqnarray}$

参考

http://blog.csdn.net/zouxy09/article/details/17292011

howardact

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
svm 支持向量机

python实现svm程序 python实现svm精简版1、线性可分SVM1.1 、数据集及最终分类器形式假设特征空间上的训练数据集：T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} xi为特征向量，yi∈{+1,−1}x_i为特征向量，y_i\in \{+1,-1\}给定线性可分训练数据集，通过间
复制链接

扫一扫