SVM

最新推荐文章于 2023-03-09 00:30:00 发布

对不起该昵称已存在

最新推荐文章于 2023-03-09 00:30:00 发布

阅读量154

点赞数

分类专栏：模式识别与机器学习

本文链接：https://blog.csdn.net/qq_43326818/article/details/112862885

版权

模式识别与机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文详细介绍了支持向量机（SVM）的基本思想、模型构建、优化策略，特别是从硬间隔最大化到软间隔最大化的过程，以及核方法的应用。通过对偶问题的转换，解释了SVM如何处理非线性问题，并讨论了C参数和核函数的选择对SVM拟合效果的影响。此外，还涵盖了SMO算法在求解SVM对偶问题中的作用。

摘要由CSDN通过智能技术生成

一、SVM

SVM可概括为：间隔、对偶、核方法。

1、数据

$Data=\{(x_1,y_1),(x_2,y_2),...(x_N,y_N)\}$ ，两分类问题。

2、思想

最大间隔分类器：可能有多个分类器，寻找使得间隔最大的分类器。

3、模型

硬分类： $y=sgn(w^Tx+b)$ ，为判别函数模型。
总体思想：
如何表示间隔 $\Rightarrow$ 间隔 $\Rightarrow$ 目标 $max~~ margin,s.t~~y_i(w^Tx_i+b)>0,i=1,2,...,N$
$\Rightarrow~how~to~define~margin:\\\Rightarrow~margin(w,b)=\underset{i=1,2,...,N~}{min}distance(w,b,x_i)\\~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~=min~\frac{1}{||w||_2}|w^Tx_i+b|\\~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~=min~\frac{1}{||w||_2}y_i(w^Tx_i+b)\\可理解为margin为样本点到分类面中的最小的距离\\\Rightarrow~max~margin=max~\underset{i=1,2,..,N}{min}\frac{1}{||w||_2}y_i(w^Tx_i+b)$

$因为y_i(w^Tx_i+b)>0,则存在r>0~s.t~y_i(w^Tx_i+b)=r$

$\Rightarrow因为w和b可等比例缩放$

$\Rightarrow即系数不影响$

$\Rightarrow所以总有w,b~s.t~y_i(w^Tx_i+b)=1成立$

$\Rightarrow即margin上的点s.t~y_i(w^Tx_i+b)=1，从几何看如图：$

SVM间隔 $所以max~margin=max~min\frac{1}{||w||^2}y_i(w^Tx_i+b)\\\Rightarrow=max\frac{2}{||w||_2}\\\Rightarrow=min\frac{1}{2}{||w||_2}\\\Rightarrow一般习惯进行求Min，因为很多规划问题的标准型为min，\\使用Min，则很多方法可以直接使用。$

$所以SVM:y=sgn(w^Tx+b)\\\Rightarrow w的求解\\\Rightarrow~min~\frac{1}{2}||w||_2^2\\\Rightarrow s.t~y_i(w^Tx_i+b)\ge1\\\Rightarrow根本就是可能存在多个分类器，目标是寻找到margin~max的$

4、策略

目标： $min\frac{1}{2}||w||_2^2\\s.t~~y_i(w^Tx_i+b)\ge1$

$\Rightarrow$ 凸二次优化，直接求解难

$\Rightarrow$ 低维可行，但在高维，特比是对非线性进行核方法时，空间可能是无穷维，所以不直接求解

$\Rightarrow$ 原问题难，使用对偶

$\Rightarrow$ 类似优化问题的一般求解思路：
有约束优化 $\xrightarrow[]{Lagrange乘子法}$ 无约束的优化问题（无约束指的是对原来参数的无约束） $\xrightarrow[]{强对偶}$ 对偶问题 $\Rightarrow~bridge$

4.1有约束转化为无约束

使用Lagrange乘子法：
$y_i(w^Tx_i+b)\ge1\Rightarrow1-y_i(w^Tx_i+b)\le1$

$\mathcal{L}(w,b,\alpha)=\frac{1}{2}w^Tw+\sum\limits_{i=1}^N\alpha_i(1-y_i(w^Tx_i+b))，其中\alpha_i\ge0$

看问题 $\underset{w,b}{min}~\underset{w}{max}\mathcal{L}(w,b,\alpha)，\alpha_i\ge0\xLeftrightarrow[]{?}min~\frac{1}{2}w^Tw~~s.t~~y_i(w^Tx_i+b)\ge1$

判断是否等价的原因是：前者很容易写出对偶问题。

$当y_i(w^Tx_i+b)<1时，1-y_i(w^Tx_i+b)>0，则\underset{\alpha}{max}\mathcal{L}(w,b,\alpha)=\infin$

$当y_i(w^Tx_i+b)\ge1时，1-y_i(w^Tx_i+b)\le0，则\underset{\alpha}{max}\mathcal{L}(w,b,\alpha)=\frac{1}{2}w^Tw$

$所以\underset{w,b}{min}~\underset{\alpha}{max}\mathcal{L}(w,b,\alpha)=\underset{w,b}{min}(\infin,\frac{1}{2}w^Tw)=\underset{w}{min}\frac{1}{2}w^Tw$
$其中蕴含了条件y_i(w^Tx_I+b)\ge1。$

所以上述两个问题时等价的，因此将有约束的问题转化为无约束问题。

4.2对偶

此时转化为无约束问题仍然是对w,b求解，难 $\Rightarrow$ 对偶问题。
$\underset{w,b}{min}~\underset{\alpha~~~~~~~~~~~~~~~~~~~~~~}{max\mathcal{L(w,b,\alpha)}}的对偶问题为：\underset{\alpha}{max}~\underset{w,b}{min}\mathcal{L}(w,b,\alpha)$

因为线性约束下的凸二次优化的对偶问题为强队偶，所以上述对偶问题的解就是原问题的解。

4.3求对偶问题

因为原问题是凸二次优化问题，所以该对偶问题为强对偶问题，所以KKT条件为充要条件，即直接使导数为0求得的解为全局最优解，并不是局部最优解。
对偶问题为： $\underset{\alpha}{max}~\underset{w,b}{min}~\mathcal{L}(w,b,\alpha)=\frac{1}{2}w^Tw+\sum\limits_{i=1}^N\alpha_i(1-y_i(w^Tx_i+b))$

首先使用KKT条件求解 $\underset{w,b}{min}\mathcal{L}(w,b,\alpha)\\\Rightarrow\frac{\partial{\mathcal{L(w,b,\alpha)}}}{\partial{w}}=-\sum\limits_{i=1}^N\alpha_iy_i=0\Rightarrow\sum\limits_{i=1}^N\alpha_iy_i=0\\\Rightarrow\frac{\partial{\mathcal{L}(w,b,\alpha)}}{\partial{w}}=w-\sum\limits_{i=1}^N\alpha_ix_iy_i=0\Rightarrow w^*=\sum\limits_{i=1}^N\alpha_ix_iy_i$
将上述结果带入 $\mathcal{L}(w,b,\alpha)中得到：\\\Rightarrow\mathcal{L}(\alpha)=-\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\alpha_i\alpha_jy_iy_jx_i^Tx_j+\sum\limits_{i=1}^N\alpha_i\\~~~~~~~~~~~~~~~~~~~~~~~~~~~~s.t~~\alpha_i\ge0$
问题转化为：
$\underset{\alpha}{max}\mathcal{L}(\alpha),s.t~~\alpha_i\ge0$

再根据互补松弛条件：
$\alpha_i(1-y_i(w^Tx_i+b))=0\left\{\begin{array}{l}y_i(w^Tx_i+b)>1\Rightarrow\alpha_i=0\\y_i(w^Tx_i+b)=1\Rightarrow\alpha_i\ge0\end{array}\right.$
找到某样本 $x_k$ 其 $\alpha_k\ne0，$ 则 $y_k(w^Tx_k+b)=1\Rightarrow b=y_k-w^Tx_k$ 。
因为 $w^*=\sum\limits_{i=1}^N\alpha_iy_ix_i，所以w只是由\alpha_i\ne0$ 的样本组成，称这些样本为支持向量。

5、算法

（1）求解问题 $\underset{\alpha}{max}-\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\alpha_i\alpha_jy_iy_jx_i^Tx_j+\sum\limits_{i=1}^N\alpha_i\\~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~s.t~~~\alpha_i\ge0\\~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\sum\limits_{i=1}^N\alpha_iy_i=0$
（2） $w^*=\sum\limits_{i=1}^N\alpha_ix_iy_i,b=y_k-w^*x_k=y_k-\sum\limits_{i=1}^N\alpha_ix_iy_ix_k$

二、soft SVM

1、soft SVM

思想：因为数据有噪声，所以不需要严格分类，soft svm即允许一点点错误，从loss function看：
$function=\sum\limits_{i=1}^NI(y_i(w^Tx_i+b))<1，不连续\\\Rightarrow loss~function为距离\\\Rightarrow loss function=\left\{\begin{array}{l}if~y_i(w^Tx_i+b)\ge1\Rightarrow~loss=0\\if~y_i(w^Tx_i+b)<1\Rightarrow~loss=1-y_i(w^Tx_i+b)\end{array}\right.$

$\Rightarrow hinge~loss~function\\\Rightarrow则\xi_i=1-y_i(w^Tx_i+b)\\\Rightarrow soft~SVM\\\Rightarrow~min~\frac{1}{2}w^Tw+C\sum\limits_{i=1}^N\xi_i(C\ge0)\\~~~~~~~~~s.t~y_i(w^Tx_i+b)\ge1-\xi_i\\~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\xi_i\ge0$

$\Rightarrow对偶问题\\\Rightarrow~max~-\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\alpha_i\alpha_jy_iy_jx_i^Tx_j+\sum\limits_{i=1}^N\alpha_i\\~~~~~~~~~~~~~~~s.t\sum_{i=1}^N\alpha_iy_i=0(KKT，对b求导)\\~~~~~~~~~~~~~~~~~~~~~~~~~~~~\alpha_i,\beta_i\ge0(Lagrange乘子法系数要求)\\~~~~~~~~~~~~~~~~~~~~~~~~~\alpha_i+\beta_i=C(KKT,对\xi_i求导)$

$从几何理解\xi_i(这里考虑正样本，负样本类似):$

$点x_i到直线w^Tx+b=1的距离d为：\frac{|w^Tx_i+b-1|}{\sqrt{w}}$

$对于SVM中有loss的样本点y_i(w^Tx_i+b)<1，即d=\frac{1-(w^Tx_i+b)}{\sqrt{w}}$

$因为y_i(w^Tx_i+b)\ge1-\xi_i\Rightarrow1-y_i(w^Tx_i+b)\le\xi_i\\\Rightarrow~d\le\frac{\xi_i}{\sqrt{w}}\\\Rightarrow d与\xi_i成正比\\\Rightarrow可将\xi_i理解为样本到margin的距离$

2、softSVM vs hardSVM

	hard SVM	soft SVM
思想	在多个可能的解中找到s.t margin max的	允许一点点错误
原问题	$\frac{1}{2}w^Tw\\s.ty_i(w^Tx_i+b)\ge1$	$min\frac{1}{2}w^Tw+C\sum\limits_{i=1}^N\xi_i\\s.t~y_i(w^Tx_i+b)\ge1-\xi_i\\\xi_i\ge0$
无约束问题	$\underset{w,b}{min}\underset{\alpha}{max}\frac{1}{2}w^Tw+\sum\limits_{i=1}^N\alpha_i(1-y_i(w^Tx_i+b))\\s.t~\alpha_i\ge0$	$\underset{w,b}{min}\underset{\alpha,\beta}{max}\frac{1}{2}w^Tw+C\sum\limits_{i=1}^N\xi_i+\sum\limits_{i=1}^N\alpha_i(1-\xi_i-y_i(w^Tx_i+b))-\sum\limits_{i=1}^N\beta_i\xi_i\\\alpha_i,\beta_\ge0$
对偶问题	$\underset{\alpha}{max}-\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\alpha_i\alpha_jy_iy_jx_i^Tx_j+\sum\limits_{i=1}^N\alpha_i\\s.t~\alpha_i\ge0\\\sum\limits_{i=1}^N\alpha_iy_i=0$	$\underset{\alpha,\beta}{max}-\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\alpha_i\alpha_jy_iy_jx_i^Tx_j+\sum\limits_{i=1}^N\alpha_i\\s.t~\alpha_i,\beta_i\ge0(Lagrange)\\\sum\limits_{i=1}^N\alpha_iy_i=0(KKT,\frac{\partial{L}}{\partial{b}})\\\alpha_i+\beta_i=C(KKT,\frac{\partial{L}}{\partial{\xi}})$
问题求解	$w^*=\sum\limits_{i=1}^N\alpha_iy_ix_i\\b=y_k-\sum\limits_{i=1}^N\alpha_iy_ix_ix_k$	$w^*=\sum\limits_{i=1}^N\alpha_iy_ix_i\\0<\alpha_k<C\Rightarrow b=y_k-\sum\limits_{i=1}^N\alpha_iy_ix_ix_k$
几何解释		各标号的意义：(1): $y_i(w^Tx_i+b)>1,loss=0\Rightarrow\xi_i=0,\alpha_i=0\\\Rightarrow\beta_i=C\\(2):y_i(w^Tx_i+b)=1,loss=0\Rightarrow\xi_i=0,\alpha_i>0\\\Rightarrow\beta_i>0\\\Rightarrow0<\alpha_i<C(support~vector)\\(3):0<y_i(w^Tx_i+b)<1,loss>0\\\Rightarrow1>\xi_i>0\\\Rightarrow\beta_i=0\\\Rightarrow\alpha_i=C\\(4)(5):y_i(w^Tx_i+b)<0,loss>1\\\Rightarrow\xi_i>1\\\Rightarrow\beta_i=0\\\Rightarrow\alpha_i=C\\soft~SVM中\xi_i为Loss,可理解为1-y_i(w^Tx_i+b)$

3、C & margin大小

3.1从margin与loss的关系看

margin越大，分得越严格，越容易产生loss。
（1） $C小\Rightarrow大margin\\\Rightarrow小C\\\Rightarrow\xi_i大，即可以忍受较大的loss，即可以分得严格些也行，即margin要大。$
（2） $C大\Rightarrow小margin\\\Rightarrow大C\\\Rightarrow\xi_小，即可以忍受的loss小，分得松一些，margin小。$

3.2从几何看

从几何看，若分类面为 $y(w^Tx+b)=1-\xi\\\Rightarrow margin,两线=\left\{\begin{array}{l}w^Tx+b=1-\xi\\w^Tx+b=-(1-\xi)\end{array}\right.\\\Rightarrow margin=\frac{|2-2\xi|}{\sqrt{w}}\\\Rightarrow因为\xi>0，即可取\xi>1\\\Rightarrow\left\{\begin{array}{l}C大,\xi小，则可能\xi<1，则margin小\\C小,\xi大，则可能\xi>1，则margin大\end{array}\right.$

三、核方法

（1）非线性带来高维转换。
（2）对偶带来内积。
核函数（计算角度）： $K(x,y)=<\phi(x),\phi(y)>$
核方法（思想角度）： $不用求具体\phi，使用K(x,y)即可$
核方法的关键概念：核函数和正定核。

1、核函数

$K:\mathcal{X}\times\mathcal{X}|\rightarrow\mathcal{R},\forall x,z\in\mathcal{X}\\则K(x,z)为核函数，本质为一个二元变量的函数。$

2、正定核

2.1基本定义

$defination1:K:\mathcal{X}\times\mathcal{X}|\rightarrow\mathcal{R},\forall x,z\in\mathcal{X},有K(x,z)，即K为核函数。\\如果\exists\phi:\mathcal{X}|\rightarrow\mathcal{R},\phi\in\mathcal{H}(hillbert ~space),s.t~K(x,z)=<\phi(x),\phi(z)>\\则称K(x,z)为正定核函数。$
此为正定核的本质定义，需要找到映射 $\phi$ 。

2.2计算简便定义

$defination2:K为核函数，若K满足下述条件，则K为正定核：\\（1）对称性：K(x,z)=K(z,x)\\（2）正定性:\forall N个元素,x_1,x_2,...,x_N\in\mathcal{X},其Gram~Matrix（K=[K(x_i,x_j)]）为半正定矩阵$ 。
此定义更容易实际操作。

3、补充

3.1Hilbert space

Hilbert space是完备的（即对极限封闭），可能是无线维的，被赋予内积的线性空间（满足加法、乘法等封闭性）。
内积： $\left\{\begin{array}{l}对称性\Rightarrow<f,g>=<g,f>\\正定性\Rightarrow<f,f>\ge0,当且仅当f=0取等\\线性\Rightarrow<r_1f_1+r_2f_2,g>=r_1<f_1,g>+r_2<f_2,g>\end{array}\right.$

3.2半正定矩阵

半正定矩阵的判定：
（1）M为半正定矩阵，则其所有特征值大于等于0。
（2）M为半正定矩阵，则 $\forall\alpha有\alpha^TM\alpha\ge0$ 。

对核函数的分析，抓住其本质，关键为内积操作。

四、核SVM

原问题： $min~\frac{1}{2}w^Tw\\~~~~~~~~~~~~~~~s.t~y_i(w^Tx_i+b)\ge1$
对偶： $\underset{\alpha}{max}\sum\limits_{i=1}^N\alpha_i-\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{i=1}^N\alpha_i\alpha_jy_iy_jx_i^Tx_j\\~~~~~~~~~~~~~~~~~~~~~~~~~~~~~s.t~\alpha_i\ge0\\~~~~~~~~~~~~~~~~~~~~~~~~~~\sum\limits_{i=1}^Ny_i\alpha_i=0$
求出 $\alpha_i\Rightarrow w^*=\sum\limits_{i=1}^N\alpha_iy_ix_i,b=y_k-\sum\limits_{i=1}^N\alpha_iy_ix_ix_k$

核SVM：
（1）得到对偶问题：
$\underset{\alpha}{max}\sum\limits_{i=1}^N\alpha_i-\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i,x_j)\\~~~~~~~~~~~~~~~~~~~~~~s.t~\alpha_i\ge0\\~~~~~~~~~~~~~~~~~~~\sum\limits_{i=1}^N\alpha_iy_i=0$
（2）求解得到 $\alpha^*$ ，一般使用SMO算法。
（3）根据 $\alpha^*$ ，得 $w^*=\sum\limits_{i=1}^N\alpha_iy_ix_i,找到SV,样本(x_k,y_k)\Rightarrow b=y_k-\sum\limits_{i=1}\alpha_iy_iK(x_i,x_k)$
（4）得到平面 $w^{*T}x+b=0$ ，则判别函数为： $f(x)=sgn(w^{*T}x+b)$

参数取值对SVM拟合效果的影响

SVM中的两个关键思想：
（1）线性可分时允许一点点误差 $\Rightarrow soft~SVM\\\Rightarrow参数C相当于正则化因子，平衡经验误差与模型复杂度$
（2）非线性可分 $\Rightarrow核方法\Rightarrow核技巧\Rightarrow核函数\Rightarrow kernal~function的参数选取也影响SVM的拟合效果$

常见的核函数：
（1）、线性核: $K(x,y)=x\cdot y+c$
（2）、多项式核： $K(x,y)=(ax^Ty+c)^d$
（3）、RBF（高斯核）： $K(x,y)=exp(-\frac{1}{2\sigma^2}||x-y||^2_2)$
（4）、sigmod核： $K(x,y)=tanh(ax^Ty+c)$

具体参数对SVM拟合的影响：

参数C

平衡经验误差与模型复杂度，C小则允许有较大经验误差，模型不复杂；C大则允许的误差小，模型复杂。
模型复杂度在线性与非线性SVM中的具体表现形式不同：

	非线性	线性
C取值大	loss小，希望分对，经验误差小，可能过拟合	希望loss小，即margin小，尽可能所有分对
C取值小	loss大，经验误差大，分类超平面光滑，可能迁拟合	loss大，即margin大，有一些在margin里，有loss

核超参数的影响

$RBF:K(x,y)=exp(-\frac{||x-y||^2_2}{2\sigma^2})=exp(-\gamma||x-y||_2^2),其中\gamma=\frac{1}{2\sigma^2}$ 。
$\sigma^2即高斯分布的方差，方差大则图像越扁平，反之亦然。$

虽RBF为两个样本的内积，看似均值变化，但其实 $K (x, y)$ 中定住 $y$ ， $K (x, y)$ 反映了 $x$ 以 $y$ 为中心的影响，其中 $\gamma$ 表示影响范围的大小：

$\left\{\begin{array}{l}\gamma大则\sigma^2小，图像越瘦高，样本影响半径小\\\gamma小则\sigma^2大，图像越扁平，样本影响半径大\end{array}\right.$

则 $\gamma$ 对SVM分类程度的影响：

$\left\{\begin{array}{l}\gamma大，则\sigma^2小,SV的影响半径小，小到只能影响自己，过拟合\\\gamma小，则\sigma^2大,SV的影响半径大，大到任意选中的SV的影响区域包含整个训练集，可能欠拟合，分类面光滑\end{array}\right.$

因此：
$\left\{\begin{array}{l}欠拟合\Rightarrow增大\gamma和C\\过拟合\Rightarrow减小\gamma和C\end{array}\right.$

五、SMO

SMO即次序最小化优化，是最快的二次规划算法，特别针对线性SVM和数据稀疏时性能更优，此处用于求解SVM的对偶问题。

SMO算法：
（1）、对 $x_i$ 计算 $E(x_i)=\sum\limits_{j=1}^N\alpha_jy_jx_jx_i+b-y_i$

（2）、选 $\alpha_1$ ，从违反KKT中选，首先考虑 $0<\alpha_i<C$ 中的

（3）、选 $\alpha_2,s.t~|E_1-E_i|最大的\alpha_i$

（4）、 $\alpha_2^{new}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}(label+erroe+kernal),\eta=K_{11}+K_{22}-2K_{12}$

（5）、剪枝： $y_1\alpha_1+y_2\alpha_2=-\sum\limits_{i=3}^Ny_i\alpha_i=k$
在这里插入图片描述 $k=y_1\alpha_1^{old}+y_2\alpha_2^{old}$

所以 $y_1\ne y_2，L=max(0,-k),H=min(c,c-k)\\y_1=y_2，L=max(0,k-c),H=min(k,c)$

所以 $\alpha_2^{new}=\left\{\begin{array}{l}L,\alpha_2^{new}<L\\\alpha_2^{new},L\le\alpha_2^{new}\le H\\H,\alpha_2^{new}>H\end{array}\right.$

（6）、根据 $y_1\alpha_1^{new}+y_2\alpha_2^{new}=y_1\alpha_1^{old}+y_2\alpha_2^{old}求\alpha_1^{new}$

（7）、更新b：
若 $0<\alpha_1^{new}<C,则b_{new}=y_1-\sum\limits_{i=3}^N\alpha_iy_ix_i-\alpha_1^{new}y_1K_{11}-\alpha_2^{new}y_2K_{21}\\因为E_1=\sum\limits_{j=1}^N\alpha_jy_jK(x_1,x_j)+b_{old}-y_1\\\Rightarrow y_1-\sum\limits_{i=3}^N\alpha_iy_ix_i=-E_1+\alpha_1^{old}y_1K_{11}+\alpha_2^{old}y_2K_{21}+b_{old}$

若 $0<\alpha_2^{new}<C$ ,同上。

若两个都不在 $(0, C)$ ，则 $b_1^{new}$ 和 $b_2^{new}$ 以及他们之间的数都满足KKT，取 $b_{new}=\frac{b_1^{new}+b_2^{new}}{2}$

重新计算 $E(x_i)$ ，进行下一轮，直到达到精度或者迭代次数。

SMO算法的 $\alpha_1$ 的选择时违反KKT条件的原因是：违反KKT，说明其违反约束条件，先从 $0<\alpha_i<C$ 中选择因为相应的样本为SV，其对SVM的影响大，从其开始，更快接近目标。
$\alpha_2$ 选 $max|E_1-E_2|$ ：希望优化后的 $\alpha_1$ 和 $\alpha_2$ 尽可能多地改变，因为 $E_1-E_2|$ 越大，说明两者误差差别大，会使 $\alpha_1,\alpha_2$ 改变很大。

fighting!

对不起该昵称已存在

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SVM

SVM一、SVM1、数据2、思想3、模型4、策略4.1有约束转化为无约束4.2对偶4.3求对偶问题5、算法二、soft SVM三、核方法四、核SVM五、SMO一、SVMSVM可概括为：间隔、对偶、核方法。1、数据Data={(x1,y1),(x2,y2),...(xN,yN)}Data=\{(x_1,y_1),(x_2,y_2),...(x_N,y_N)\}Data={(x1,y1),(x2,y2),...(xN,yN)}，两分类问题。2、思想最大间隔分类器：可能有多个分类器，寻找使
复制链接

扫一扫

专栏目录