SVM支持向量机

最新推荐文章于 2023-11-25 13:27:44 发布

loveitlovelife

最新推荐文章于 2023-11-25 13:27:44 发布

阅读量334

点赞数

分类专栏：机器学习相关

本文链接：https://blog.csdn.net/loveitlovelife/article/details/79108296

版权

机器学习相关专栏收录该内容

18 篇文章 4 订阅

订阅专栏

$\quad$ 思想：基于训练集 $D=\{(x_1,y_1)，(x_2,y_2)，...，(x_m,y_m)\}$ , $y_i \in\{-1,+1\},$ 在样本空间中找到一个划分超平面，将不同的类别样本分开。因此需要找到合适的超平面使得泛化性能最好。
这里写图片描述
$\quad$ 直观上看应该找位于两类训练样本“正中间”的划分超平面，此超平面对训练样本集扰动的容忍性最好，即受影响最小，泛化能力最强。
$\quad$ 描述： $w^Tx+b=0，其中w=(w_1;w_2;w_3...w_d)$ 为法向量，决定超平面方向，b为位移项，决定超平面与原点之间的距离。超平面的划分可被法向量w和位移b决定，样本空间中任意一点x到超平面(w,b)的距离可写为：

r = | w t x + b | | | w | |

$r =\frac {|w_tx+b|}{||w||}$

$\quad$
最大间隔假设
令

{w T x i + b \geq + 1, y i = + 1; w T x i + b \leq - 1, y i = - 1 . . . . . . . . . . . . .1

$\left\{ \begin{array}{c} w^Tx_i +b \ge+1,\text{$y_i=+1$} ;\\ w^Tx_i +b \le-1,\text{$y_i=-1$} . \end{array} \right. ............1$
则使上式等号成立的样本点被称为“支持向量”，两个异类支持向量到超平面的距离之和为：

υ = 2 | | w | |

$\upsilon =\frac{2}{||w||}$ (间隔margin)
这里写图片描述

优化目标：

$\quad$ 找到参数w和b使得

υ υ $\upsilon$ 最大，即：

m a x w, b 2 | | w | | s . t . y i (w T x i + b) \geq 1, i = 1, 2, . . ., m .

$max_{w,b}\frac{2}{||w||}\\ s. t. \quad y_i(w^Tx_i+b) \ge1,i=1,2,...,m.$
等价于：

m i n w, b | | w | | 2 2 s . t . y i (w T x i + b) \geq 1, i = 1, 2, . . ., m ； \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot 2

$min_{w,b}\frac{||w||^2}{2}\\ s. t. \quad y_i(w^Tx_i+b) \ge1,i=1,2,...,m；\quad··········2$
这就是支持向量机(SVM)的基本型。

对偶问题

拉格朗日的对偶问题：
$\quad$ 2式优化目标可写为：

L (w, b, α) = 1 2 | | w | | 2 + \sum i = 1 m α i (1 - y i (w T x i + b)) \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot 3

$L(w,b,\alpha)=\frac{1}{2}||w||^2+\sum_{i=1}^{m} \alpha_i(1-y_i(w^Tx_i+b))·········3$
其中

α=(α1;α2;...;αm). α = ( α 1 ; α 2 ; . . . ; α m ) . $\alpha =(\alpha_1;\alpha_2;...;\alpha_m).$ 令

L(w,b,α) L ( w , b , α ) $L(w,b,\alpha)$ 对w和b的偏导为零得到：

w = \sum i = 1 m α i y i x i, \cdot \cdot \cdot \cdot \cdot \cdot \cdot 4 0 = \sum i = 1 m α i y i ， \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot 5

$w=\sum_{i=1}^{m}\alpha_iy_ix_i,·······4\\0=\sum_{i=1}^{m}\alpha_iy_i，········5$
将4代入3并考虑5式得到：

m a x α \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x T i x j \cdot \cdot \cdot \cdot \cdot \cdot \cdot 6 s . t . \sum i = 1 m α i y i = 0, α i \geq 0, i = 1, 2, . . ., m .

$max_{\alpha} \sum_{i=1}^{m}\alpha_i -\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j·······6\\ s.t. \quad \sum_{i=1}^{m} \alpha_i y_i=0,\\\alpha_i \ge0,i=1,2,...,m.$
解出\alpha后，求出w与b即可得到模型：

f (x) = w T x + b = \sum i = 1 m α i y i x T i x + b . \cdot \cdot \cdot \cdot \cdot \cdot \cdot 7

$f(x) =w^Tx+b\\=\sum_{i=1}^{m}\alpha_iy_ix_i^Tx+b.·······7$
KTT条件：

⎧ ⎩ ⎨ ⎪ ⎪ α i \geq 0, y i f (x i) - 1 \geq 0, α i (y i f (x i) - 1) = 0. . . . . . . . . . . . .8

$\left\{ \begin{array}{c} \alpha_i \ge 0,\\ y_if(x_i)-1 \ge0,\\ \alpha_i(y_if(x_i)-1)=0. \end{array} \right. ............8$
对于任一训练样本，总有

αi=0或yif(xi)=1.若αi=0， α i = 0 或 y i f ( x i ) = 1. 若 α i = 0 ， $\alpha_i=0或y_if(x_i)=1.若\alpha_i =0，$ 则该样本不会再7式求和中出现，也就不会对f(x)有任何影响。若

αi>0 α i > 0 $\alpha_i>0$ ，则必有

yif(xi)=1 y i f ( x i ) = 1 $y_if(x_i)=1$ ,所对应的样本点在最大间隔边界上，是一个支持向量.

$\quad$ 性质：训练完后，大部分训练样本不需要保留，最终模型仅与支持向量有关
SMO算法:
基本思路：先固定

αi α i $\alpha_i$ 之外的所有参数，然后求

αi α i $\alpha_i$ 上的极值。由于存在约束

∑mi=1αiyi=0， ∑ i = 1 m α i y i = 0 ， $\sum_{i=1}^m\alpha_i y_i =0，$ 若固定

αi α i $\alpha_i$ 之外的其他变量，则

αi α i $\alpha_i$ 可由其他变量导出。于是，SMO每次选择两个变量

αi和αj， α i 和 α j ， $\alpha_i和\alpha_j，$ 并固定其他参数。这样，在参数初始化后，SMO不断执行如下两个步骤直至收敛：

$\\$
1.选取一对需要更新的变量

αi和αj α i 和 α j $\alpha_i和\alpha_j$ ；
2.固定

αi和αj α i 和 α j $\alpha_i和\alpha_j$ 以外的参数，求解式7获得更新后的

αi和αj. α i 和 α j . $\alpha_i和\alpha_j.$

$\\$
启发式：选取的两变量所对应的样本之间间隔最大。这样的两个变量有很大的差别，与对两个相似的变量进行更新对比，对他们进行更新会带给目标函数函数值更大的变化。
此时式7可以重写为：

α i y i + α j y j = c ， α i \geq 0 ， α j \geq 0 ，

$\alpha_iy_i+\alpha_jy_j =c，\alpha_i \ge 0，\alpha_j \ge 0，$ 其中：

c = - \sum k \neq i, j α k y k

$c=-\sum_{k \neq i,j} \alpha_k y_k$ ，是使

∑i=1mαiyi=0 ∑ i = 1 m α i y i = 0 $\sum_{i=1}{m}\alpha_iy_i =0$ 成立的常数。用

α i y i + α j y j = c

$\alpha_iy_i +\alpha_jy_j =c$
消去变量

αj α j $\alpha_j$ ，得到一个关于

αi α i $\alpha_i$ 的单变量二次规划问题，约束

αi≥0 α i ≥ 0 $\alpha_i \ge 0$ .可以计算出更新后的

αi和αj。 α i 和 α j 。 $\alpha_i和\alpha_j。$
偏移项b的确定：对任意支持向量(x_s,y_s)都有y_sf(x_s)=1,即：

y s (\sum i \in S α i y i x T i x s + b) = 1

$y_s(\sum_{i \in S}\alpha_iy_ix_i^Tx_s +b) =1$ S为所有支持向量的下标集。通过使用所有支持向量求解的平均值获得更加鲁棒的结果：

b = 1 | S | \sum s \in S (1 y s - \sum i \in S α i y i x T i x s)

$b=\frac{1}{|S|}\sum_{s \in S}(\frac{1}{y_s} -\sum_{i \in S} \alpha_i y_ix_i^Tx_s)$

核函数

描述：对于非线性可分情况下，讲样本从原始空间映射到更高维的特征空间，使得样本在该特征空间内可分。（如果原始空间有限维，则存在高危特征空间使得样本可分。）
这里写图片描述
模型表示： $f(X)=w^T\phi(x)+b$ ···········9， $\phi(x)$ 为x映射后的特征向量；w和b为模型参数。

优化问题： $min_{w,b} \frac{1}{2}||w||^2， s.t. y_i(w^T \phi(x_i)+b) \ge1, i =1,2,...,m.$

对偶问题： $max_{\alpha} \quad \sum_{i=1}^{m}\alpha_i-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i \alpha_jy_iy_j \phi(x_i)^T\phi(x_j)\\s.t. \sum_{i=1}^{m} \alpha_i y_i =0, \alpha_i \ge0,i=1,2,...,m.$

核函数： $\kappa (x_i,x_j)=\langle \phi(x_i),\phi(x_j)\rangle=\phi(x_i)^T\phi(x_j)$
因此： $f(x) =w^T \phi(x)+b =\sum_{i=1}^{m}\alpha_i y_i \phi(x_i)^T \phi(x)+b\\=\sum_{i=1}^{m}\alpha_i y_i\kappa (x_i,x_j)+b········10$
这里写图片描述
组合函数：
+若 $\kappa_1和\kappa_2$ 为核函数，则对于任意正数 $\gamma_1\kappa_1+\gamma_2\kappa_2$ 也是核函数；
+若 $\kappa_1和\kappa_2$ 为核函数，则核函数的直积 $\kappa_1\otimes\kappa_2(x,z) =\kappa_1(x,z)\kappa_2(x,z)$ 也是核函数；
+若 $\kappa_1$ 为核函数，则对于任意函数g(x), $\kappa(x,z)=g(x)\kappa_1(x,z)g(z)$ 也是核函数。

软间隔与正则化

硬间隔：所有样本必须划分正确。
软间隔：允许支持向量机在一些样本上不满足约束： $y_i(w^Tx_i+b) \ge1$ .
这里写图片描述
优化目标： $min_{w,b} \frac{1}{2}||w||^2+C\sum_{i=1}^{m} l_{0/1}(y_i(w^Tx_i+b)-1),······ 10$
其中 $l_{0/1}$ 是“0/1损失函数”f(n) =

{1, 0, i f z < 0 otherwise

$\begin{cases} 1, & \text{$if \quad z \lt 0$ } \\ 0, & \text{otherwise} \end{cases}$
替代损失（由于

l0/1 l 0 / 1 $l_{0/1}$ 函数非凸、非连续、函数性质不好，因此由一些函数替代

l0/1 l 0 / 1 $l_{0/1}$ ）：
+hinge损失：

lhinge(z)=max(0,1−z) l h i n g e ( z ) = m a x ( 0 , 1 − z ) $l_{hinge}(z)=max(0,1-z)$
+指数损失（exponential loss）：

lexp(z)=exp(−z) l e x p ( z ) = e x p ( − z ) $l_{exp}(z)=exp(-z)$ ;
+对率损失（logistics loss）：

llog(z)=log(1+exp(−z)). l l o g ( z ) = l o g ( 1 + e x p ( − z ) ) . $l_{log}(z)=log(1+exp(-z)).$

hinge损失：采用hinge损失，则10式变为：

m i n w, b 1 2 | | w | | 2 + C \sum i = 1 m m a x (0, 1 - y i (w T x i + b))

$min_{w,b} \frac{1}{2}||w||^2+C\sum_{i=1}^{m} max(0,1-y_i(w^Tx_i+b))$ ,
软间隔支持向量机：引入“松弛变量”

ξi≥0 ξ i ≥ 0 $\xi_i \ge 0$ ，可将上式重写为

m i n w, b, ξ i 1 2 | | w | | 2 + C \sum i = 1 m ξ i \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot 11 s . t . y i (w T x i + b) \geq 1 - ξ i ξ i \geq 0, i = 1, 2, . . ., m .

$min_{w,b,\xi_i} \frac{1}{2}||w||^2+C\sum_{i=1}^{m}\xi_i·········11\\s.t. y_i(w^Tx_i+b) \ge 1-\xi_i \\ \xi_i \ge 0, i =1,2,...,m.$ ，这就是常用的“软间隔支持向量机”

拉格朗日函数（软间隔支持向量机条件下）：

L (w, b, α, ξ, μ) = 1 2 | | w | | 2 + C \sum i = 1 m ξ i + \sum i = 1 m α i (1 - ξ i - y i (w T x i + b)) - \sum i = 1 m μ i ξ i,

$L(w,b,\alpha,\xi,\mu)=\frac{1}{2}||w||^2+C\sum_{i=1}^{m}\xi_i+\sum_{i=1}^{m}\alpha_i(1-\xi_i-y_i(w^T x_i+b))-\sum_{i=1}^{m}\mu_i\xi_i,$ 对

w,b,ξi w , b , ξ i $w,b,\xi_i$ 求偏导，并令其为零得：

w = \sum i = 1 m α i y i x i; 0 = \sum i = 1 m α i y i; C = α i + μ i \cdot \cdot \cdot \cdot \cdot \cdot \cdot 12

$w=\sum_{i=1}^{m}\alpha_iy_ix_i;\\0=\sum_{i=1}{m}\alpha_iy_i;\\C=\alpha_i+\mu_i·······12$
对偶问题：

m a x α \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x T i x j \cdot \cdot \cdot \cdot \cdot \cdot \cdot 13 s . t . \sum i = 1 m α i y i = 0, C \geq α i \geq 0, i = 1, 2, . . ., m .

$max_{\alpha} \sum_{i=1}^{m}\alpha_i -\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j·······13\\ s.t. \quad \sum_{i=1}^{m} \alpha_i y_i=0,\\C \ge \alpha_i \ge0,i=1,2,...,m.$
KKT条件：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ α i \geq 0, μ i \geq 0, y i f (x i) - 1 + ξ i \geq 0, α i (y i f (x i) - 1 + ξ i) = 0. ξ i \geq 0, μ i ξ i = 0. . . . . . . . . . . . .14

$\left\{ \begin{array}{c} \alpha_i \ge 0,\mu_i \ge 0,\\ y_if(x_i)-1 + \xi_i \ge0,\\ \alpha_i(y_if(x_i)-1+\xi_i)=0.\\ \xi_i \ge 0, \mu_i\xi_i=0. \end{array} \right. ............14$

正则问题： $min_f \quad \Omega(f) +C\sum_{i=1}^{m}l(f(x_i),y_i),$
其中 $\Omega(f)$ 称为“结构风险”,正则化项，描述模型的某些性质， $C\sum_{i=1}^{m}l(f(x_i),y_i)$ 为经验风险；用于描述模型与训练数据的契合程度；C正则化常数，用于对二者进行折中， $L_p$ 范数为常用正则化项， $L_2$ 倾向于w的分量取值均衡； $L_1和L_0$ 倾向于w的分量尽量稀疏，非零分量个数尽量少。

支持向量回归

假设：f(x)与y之间的差别绝对值大于 $\epsilon$ 才计算损失，如下图，训练样本落入此间隔带，则被认为预测正确：
这里写图片描述

SVR问题： $min_{w,b}\frac{1}{2}||w||^2+C\sum_{i=1}^{m}l_{\epsilon}(f(x_i)-y_i),········15$
$\epsilon$ -insensitive loss function:

l ϵ (z) = {0, | z | - ϵ, if | z | \leq ϵ otherwise . . . . . . . . . . . .16

$l_{\epsilon}(z) = \begin{cases} 0, & \text{if $|z| \le \epsilon$} \\ |z|-\epsilon, & \text{otherwise} \end{cases} ............16$
引入松弛变量

ξi和ξ^i ξ i 和 ξ ^ i $\xi_i和\hat \xi_i$ 则15式变为：

m i n w, b, ξ i, ξ^i 1 2 | | w | | 2 + C \sum i = 1 m (ξ i + ξ^i), s . t . f (x i) - y i \leq ϵ + ξ i, y i - f (x i) \leq ϵ + ξ^i, ξ i \geq 0; ξ^i \geq 0 \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot 17

$min_{w,b,\xi_i,\hat \xi_i}\frac{1}{2}||w||^2+C\sum_{i=1}^{m}(\xi_i+\hat \xi_i),\\s.t. f(x_i)-y_i \le \epsilon+\xi_i,\\y_i- f(x_i) \le \epsilon+\hat \xi_i,\\\xi_i \ge 0; \hat \xi_i \ge 0········17$

拉格朗日函数：
$L(w,b,\alpha,\hat\alpha ,\xi,\hat \xi,\mu ,\hat \mu)\\=\frac{1}{2}||w||^2+C\sum_{i=1}^{m}(\xi_i+\hat \xi_i)-\sum_{i=1}^{m}\hat \mu_i \hat \xi_i -\sum_{i=1}^{m}mu_i \xi_i\\+\sum_{i=1}^{m}\alpha_i(f(x_i)-y_i)-\epsilon-\xi_i)+\sum_{i=1}^{m}\hat \alpha_i(y_i-f(x_i))-\epsilon-\hat \xi_i)$ ··18
SVR对偶问题：利用拉格朗日乘子法得到SVR对偶问题：

m a x α, α^\sum i = 1 m y i (α^i - α i) - ϵ (α^i + α i) - 1 2 \sum i = 1 m \sum j = 1 m (α^i - α i) (α^j - α j) x T i x j \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot 19; s . t . \sum i = 1 m (α^i - α i) = 0; 0 \leq α i, α^i \geq C .

$max_{\alpha,\hat \alpha} \sum_{i=1}^{m} y_i(\hat \alpha_i -\alpha_i) -\epsilon(\hat \alpha_i +\alpha_i)-\\\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}(\hat \alpha_i -\alpha_i)(\hat \alpha_j -\alpha_j)x_i^Tx_j········19;\\ s.t. \sum_{i=1}^{m}(\hat \alpha_i -\alpha_i)=0;\\0 \le \alpha_i,\hat \alpha_i \ge C.$
KTT条件：

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪αi(f(xi)−yi−ϵ−ξi）=0α^i(yi−f(xi)−ϵ−ξ^i）=0,αiα^i=0,ξiξ^i=0.(C−αi)ξi=0,(C−α^i)ξ^i=0.............20 { α i ( f ( x i ) − y i − ϵ − ξ i ） = 0 α ^ i ( y i − f ( x i ) − ϵ − ξ ^ i ） = 0 , α i α ^ i = 0 , ξ i ξ ^ i = 0. ( C − α i ) ξ i = 0 , ( C − α ^ i ) ξ ^ i = 0. . . . . . . . . . . . .20

$\left\{ \begin{array}{c} \alpha_i(f(x_i)-y_i-\epsilon-\xi_i）=0\\ \hat \alpha_i(y_i-f(x_i)-\epsilon-\hat \xi_i）=0,\\ \alpha_i\hat\alpha_i=0,\xi_i\hat\xi_i=0.\\ (C-\alpha_i)\xi_i=0,(C-\hat\alpha_i)\hat\xi_i=0. \end{array} \right. ............20$
求解：SVR解形如：

f (x) = \sum i = 1 m (α^i - α i) x T i x + b .

$f(x)=\sum_{i=1}^{m}(\hat \alpha_i-\alpha_i)x^T_i x+b.$

b = y i + ϵ - \sum j = 1 m (α^j - α j) x T j x i

$b=y_i+\epsilon-\sum_{j=1}^{m}(\hat \alpha_j-\alpha_j)x^T_j x_i$

考 虑 特 征 映 射 ， w = \sum i = 1 m (α^i - α i) ϕ (x i) ， 则 S V R 表 示 为 ：

$考虑特征映射，w=\sum_{i=1}^{m}(\hat \alpha_i-\alpha_i)\phi(x_i)，则SVR表示为：$

f (x) = \sum i = 1 m (α^i - α i) κ (x, x i) + b

$f(x) =\sum_{i=1}^{m}(\hat \alpha_i-\alpha_i)\kappa(x,x_i)+b$ 其中

κ(xi,xj)=ϕ(xi,xj)=ϕ(xi)Tϕ(xj) κ ( x i , x j ) = ϕ ( x i , x j ) = ϕ ( x i ) T ϕ ( x j ) $\kappa(x_i,x_j)=\phi(x_i,x_j)=\phi(x_i)^T\phi(x_j)$ 为核函数。

loveitlovelife

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SVM支持向量机

目录-间隔与支持向量 -对偶问题 -核函数 -软间隔与正则化 -支持向量回归 -核方法间隔与支持向量\quad思想：基于训练集D={(x1,y1)，(x2,y2)，...，(xm,ym)}D=\{(x_1,y_1)，(x_2,y_2)，...，(x_m,y_m)\},yi∈{−1,+1},y_i \in\{-1,+1\},在样本空间中找到一个划分超平面，将不同的类别样本分
复制链接

扫一扫