支持向量机算法推导

最新推荐文章于 2024-04-18 21:00:06 发布

prosmail

最新推荐文章于 2024-04-18 21:00:06 发布

阅读量422

点赞数 1

文章标签：算法机器学习支持向量机 svm

本文链接：https://blog.csdn.net/prosmail/article/details/103924302

版权

1.支持向量机的基本思想

基于训练集D在样本空间中找到一个划分超平面（在二维空间中为一条直线，在三维空间中为一个平面），将不同类别的样本分开。
在这里插入图片描述

问题来了，这样的超平面有很多，我们应该努力去找到哪一个呢，哪一个是最好的呢？基于上述问题，我们提出三个判定标准：1.可以正确分割样本；2.留有大量的余量，既分类超平面尽可能的离两类样本尽可能的远（分类超平面对测试样本有最强的泛化能力）3.位于两类训练样本“正中间”的超平面（也是为了最大化泛化能力）
基于以上判定标准，我们要选的分类超平面应该是这样的：正样本和负样本中离分类超平面最近的样本点，距离分类超平面的距离尽可能的大（最大化分类间隔）。

2.线性可分的问题

探讨这个问题之前，有一个假设前提，既所有训练样本都是线性可分的（这是一个理想状态，现实中很少有这样的情况，只是为了进一步的推导做铺垫）。

2.1点到超平面的距离

超平面可以用分类函数 $f(\pmb{x})=\pmb{w}^T\pmb{x}+b$ 表示，当 $f(\pmb{x})$ 等于0的时候， $\pmb{x}$ 便是位于超平面上的点，而 $f(\pmb{x})$ 大于0的点对应 y=1 的数据点， $f(\pmb{x})$ 小于0的点对应y=-1的数据点。
$\pmb{w}$ 是超平面的法向量，与超平面垂直。证明过程如下：设 $\pmb{x}_1$ 、 $\pmb{x}_2$ 是超平面上任意两点， $\pmb{w}^T\pmb{x}_1+b=0$ $\pmb{w}^T\pmb{x}_2+b=0$ $\pmb{w}^T(\pmb{x}_1-\pmb{x}_2)=0$
根据两个向量的数量积为零，两个向量相互垂直，可推出 $\pmb{w}$ 与 $(\pmb{x}_1-\pmb{x}_2)$ 相互垂直，而 $(\pmb{x}_1-\pmb{x}_2)$ 是超平面内任意一向量，所以 $\pmb{w}$ 与超平面垂直，既 $\pmb{w}$ 是超平面的法向量，决定了超平面的方向。
训练集中任意样本点到超平面的距离可表示为： $\gamma=\frac{\left|\pmb{w}^T\pmb{x}+b\right|}{\parallel \pmb{w} \parallel}$
推到过程如下：
在这里插入图片描述 $\gamma=\parallel \ \vec{AB}- \vec{OC} \parallel$
$\gamma=\parallel \frac{\pmb{w}^T}{\parallel \pmb{w} \parallel}\pmb{x} \frac{\pmb{w}}{\parallel \pmb{w} \parallel}-\frac{-b}{\parallel \pmb{w} \parallel}\frac{\pmb{w}}{\parallel \pmb{w} \parallel} \parallel$
$\pmb{w}^T/\parallel \pmb{w} \parallel$ 表示 $\pmb{w}$ 向量的单位向量，与向量 $\pmb{x}$ 进行数量积操作，结果为表示向量 $\pmb{x}$ 在 $\pmb{w}$ 方向上投影的长度，在乘以 $\pmb{w}$ 方向上的单位向量既为向量 $\vec{AB}$
$\vec{OC}=\lambda_0\frac{\pmb{w}}{\parallel \pmb{w} \parallel}$
$\pmb{w}^T\lambda_0\frac{\pmb{w}}{\parallel \pmb{w} \parallel}+b=0$
$\lambda_0=\frac{-b}{\parallel \pmb{w} \parallel}$
$\vec{OC}=\frac{-b}{\parallel \pmb{w} \parallel}\frac{\pmb{w}}{\parallel \pmb{w} \parallel}$

2.2线性可分的原问题

对于正样本： $\pmb{w}^T\pmb{x}+b\geq0$
对于负样本： $\pmb{w}^T\pmb{x}+b\leq0$
可以统一写成 $y_i\left(\pmb{w}^T\pmb{x_i}+b\right)\geq0$ $y_i\in\{-1,+1\}$
为了消除冗余并简化问题，我们令正样本或负样本距离分类超平面最近的点：
$min_i\left|\pmb{w}^T\pmb{x_i}+b\right|=1$
因此‘'间隔“（margin）为：
$d=\gamma^++\gamma^-$
$d=\frac{1}{\parallel \pmb{w} \parallel}+\frac{1}{\parallel \pmb{w} \parallel}=\frac{2}{\parallel \pmb{w} \parallel}$
线性可分的问题为（带有不等式的最小化问题）：
$min(\frac{1}{2}\pmb{w}^T\pmb{w})$
$y_i\left(\pmb{w}^T\pmb{x_i}+b\right)\geq1$
证明这个问题是凸优化问题：

补充知识开始
凸优化问题有两个限定：1变量的可行域是一个凸集；2目标函数是一个凸函数。
凸集的定义为，如果变量 $x,y\in C$ ，那么他们连线上的任何一个点 $\theta x+(1-\theta)y\in C$ ， $0\leq\theta\leq1$ 。几个典型的凸集： $\mathbb{R}^n$ ， $\{\pmb{x}\in\mathbb{R}^n:A\pmb{x}=b\}$ ， $\mathbb{R}^n$ ， $\{\pmb{x}\in\mathbb{R}^n:A\pmb{x}\leq b\}$ ，以及 $∩Ci \cap C_i$ （多个凸集的交集）。
凸函数的定义为， $f(\theta\pmb{x}+(1-\theta)\pmb{y}<\theta f(\pmb{x})+(1-\theta)f(\pmb{y})$ 。
一阶判别法：
一元函数： $f(x')\geq f\prime(x)(x'-x)+f(x)$ ，抛物线上任意一点的切线在抛物线的下方。
多元函数： $f(\pmb{x}')\geq \nabla f(\pmb{x})(\pmb{x}'-\pmb{x})+f(\pmb{x})$
二阶判别法：
一元函数： $f\prime \prime(x)\geq0$
多元函数：Hessian矩阵为半正定矩阵。如果为正定矩阵，那么为严格的凸函数
其他判别法：
$f(\pmb{x})=\sum_{i=0}^nw_if_i(\pmb{x})$ ，多个凸函数的线性相加仍未凸函数
补充知识结束

1. $\pmb{w}$ 的可行域为多个线性不等式围成的区域，因此其可行域为凸集。
2. $\frac{1}{2}\pmb{w}^T\pmb{w}$ 为凸函数，因为其Hessian矩阵为单位矩阵（ $\frac{1}{2}(w_1^2+w_2^2+w_3^2+w_4^2+\ldots+w_n^2)$ ，因此函数为严格凸函数。
基于以上两点，这是一个凸优化的问题。
利用拉格朗日乘子法解决带有约束的优化问题：
$L(\pmb{w},b,\alpha)=\frac{1}{2} \parallel \pmb{w}\parallel^2-\sum_{i=1}^l\alpha_i(y_i(\pmb{w}^T\pmb{x_i}+b)-1)$
其原问题为：
$min_{w,b}max_\alpha L(\pmb{w},b,\alpha)$

2.3线性可分的对偶问题

补充知识开始
对偶问题的基本思想：把难以解决的原始问题，转换为等价的另一个问题，且另一个问题要容易求解一些。
广义的拉格朗日乘子法（带有一组等式约束和一组不等式约束）：
$minf(\pmb{x})$
$g_i(\pmb{x})\leq0\ \ \ i=1,\ldots,m$
$hi_i(\pmb{x})=0\ \ \ i=1,\ldots,p$
$L(\pmb{x},\lambda,\nu)=f(\pmb{x})+\sum_{i=1}^m\lambda_ig_i(\pmb{x})+\sum_{i=1}^p\nu_ih_i(\pmb{x})$
原问题：
$p^*=min_xmax_{\lambda,\nu,\lambda_i\geq0}L(\pmb{x},\lambda,\nu)$
原问题分两步来求解，第一步固定 $\pmb{x}$ （把 $\pmb{x}$ 当成常数），变动 $\lambda,\nu$ ，取最大值；第二步，变动 $\pmb{x}$ 取最小值。原问题等价于我们要求解的问题，证明思路：因为 $\lambda_i\geq0,g(\pmb{x})\leq0$ ，所以 $\sum_{i=1}^m\lambda_ig_i(\pmb{x})$ 最大等于零。因为 $hi_i(\pmb{x})=0$ ，所以 $\sum_{i=1}^p\nu_ih_i(\pmb{x})$ 等于零。综上当变动 $\lambda,\nu$ 时，函数的最大值就是 $f(\pmb{x})$ ，原问题就变成了 $min_xf(\pmb{x})$ 。
对偶问题：
$d^*=max_{\lambda,\nu,\lambda_i\geq0}min_xL(\pmb{x},\lambda,\nu)$
弱对偶：
$d^*=max_{\lambda,\nu,\lambda_i\geq0}min_xL(\pmb{x},\lambda,\nu)\leq min_xmax_{\lambda,\nu,\lambda_i\geq0}L(\pmb{x},\lambda,\nu)=p^*$
强对偶：
满足slatter条件（充分非必要条件）可以转为强对偶，1.原始问题为一个凸优化问题；2.存在一个可行解，另不等式约束 $g_i(\pmb{x})$ 严格满足，也就是不等式不能取等号（所有 $g_i(\pmb{x})$ 都小于零）
$d^*=max_{\lambda,\nu,\lambda_i\geq0}min_xL(\pmb{x},\lambda,\nu)=min_xmax_{\lambda,\nu,\lambda_i\geq0}L(\pmb{x},\lambda,\nu)=p^*$
补充知识结束

原问题满足slatter条件：
1.原问题是一个凸优化问题，前面以证明；2.至少存在一组 $\pmb{w},b$ 使 $y_i\left(\pmb{w}^T\pmb{x_i}+b\right)\geq1$ 成立，那么 $100\pmb{w},100b$ 也是满足条件的解，一定可以让 $y_i\left(\pmb{w}^T\pmb{x_i}+b\right)>1$ 成立。
原问题转换为对偶问题：
$min_{w,b}max_\alpha L(\pmb{w},b,\alpha)=max_\alpha min_{w,b}L(\pmb{w},b,\alpha)$
$L(\pmb{w},b,\alpha)=\frac{1}{2} \parallel \pmb{w}\parallel^2-\sum_{i=1}^l\alpha_i(y_i(\pmb{w}^T\pmb{x_i}+b)-1)$
$\frac{\partial L}{\partial b}=0 \ \ \Rightarrow\ \ \sum_{i=1}^l\alpha_iy_i=0$
$\nabla_wL=0 \ \ \Rightarrow\ \ \pmb{w}=\sum_{i=1}^l\alpha_iy_i\pmb{x_i}$
带入原式得出：
$max_\alpha-\frac{1}{2}\sum_{i=1}^l\sum_{j=1}^l\alpha_i\alpha_jy_iy_j\pmb{x_i}^T\pmb{x_j}+\sum_{k=1}^l\alpha_k$
转换为新的最优化问题：
$min_\alpha\frac{1}{2}\sum_{i=1}^l\sum_{j=1}^l\alpha_i\alpha_jy_iy_j\pmb{x_i}^T\pmb{x_j}-\sum_{k=1}^l\alpha_k$
$\alpha_i\geq0,\ \ \ i=1,\ldots,l$
$\sum_{i=1}^l\alpha_iy_i=0$

预测超平面方程为：
$\pmb{w}=\sum_{i=1}^l\alpha_iy_i\pmb{x_i}$
每一个样本都对应一个 $\alpha_i$ ，当 $\alpha_i$ 不等于0时，其对应样本对 $\pmb{w}$ 的计算产生作用，这样的向量成为支持向量。
$f(\pmb{x})=\sum_{i=1}^l\alpha_iy_i\pmb{x_i}^T\pmb{x}+b$

3.线性不可分的问题

线性可分过于理想化，实际中遇到的样本绝大多数都是线性不可分的。下面我们将得到的方程进行扩展，使之可以处理线性不可分的问题。
线性可分的问题：
$min\frac{1}{2}\pmb{w}^T\pmb{w}$
$y_i\left(\pmb{w}^T\pmb{x}+b\right)\geq1$
线性不可分的问题是在原问题的基础上加上松弛变量 $\xi$ 和惩罚因子 $C$ ，增加松弛因子后，允许样本点落在”间隔“内：
$min(\frac{1}{2}\pmb{w}^T\pmb{w}+C\sum_{i=1}^l\xi_i)$
$y_i\left(\pmb{w}^T\pmb{x_i}+b\right)\geq1-\xi_i$
$-(y_i\left(\pmb{w}^T\pmb{x_i}+b\right)-1+\xi_i)\leq0$
$-\xi_i\leq0,\ \ \ i=1,2,\ldots,l$

这仍然是一个凸优化问题，并满足Slater条件，证明同上。构建拉格朗日乘子函数：
$L(\pmb{w},b,\alpha,\xi,\beta)=\frac{1}{2} \parallel \pmb{w}\parallel^2+C\sum_{i=i}^l\xi_i-\sum_{i=1}^l\alpha_i(y_i(\pmb{w}^T\pmb{x_i}+b)-1)-\sum_{i=1}\beta_i\xi_i$
原问题为：
$min_{w,b,\beta,\xi}max_{\alpha} L(\pmb{w},b,\alpha,\xi,\beta)$
对偶问题为：
$max_\alpha min_{w,b,\beta,\xi}L(\pmb{w},b,\alpha,\xi,\beta)$
$\frac{\partial L}{\partial b}=0 \ \ \Rightarrow\ \ \sum_{i=1}^l\alpha_iy_i=0$
$\nabla_\xi L=0 \ \ \Rightarrow\ \ \ \alpha_i+\beta_i=C$
$\nabla_wL=0 \ \ \Rightarrow\ \ \pmb{w}=\sum_{i=1}^l\alpha_iy_i\pmb{x_i}$
带入原式转化为新的问题：
$min_\alpha\frac{1}{2}\sum_{i=1}^l\sum_{j=1}^l\alpha_i\alpha_jy_iy_j\pmb{x_i}^T\pmb{x_j}-\sum_{k=1}^l\alpha_k$
$0\leq\alpha_i\leq C,\ \ \ i=1,\ldots,l$
$\sum_{i=1}^l\alpha_iy_i=0$
仍然是一个线性模型，预测方程为：
$f(\pmb{x})=\sum_{i=1}^l\alpha_iy_i\pmb{x_i}^T\pmb{x}+b$

4.KKT条件对原问题最优解的约束

补充知识开始：KKT条件
广义的拉格朗日乘子法（带有一组等式约束和一组不等式约束）：
$minf(\pmb{x})$
$g_i(\pmb{x})\leq0\ \ \ i=1,\ldots,m$
$hi_i(\pmb{x})=0\ \ \ i=1,\ldots,p$
$L(\pmb{x},\lambda,\nu)=f(\pmb{x})+\sum_{i=1}^m\lambda_ig_i(\pmb{x})+\sum_{i=1}^p\nu_ih_i(\pmb{x})$
在极值点处必须满足如下条件：
$\nabla_xL(\pmb{x}^*)=0$
$\lambda_i\geq0$
$\lambda_ig_i(\pmb{x}^*)=0$
$h_i(\pmb{x}^*)=0$
$g_i(\pmb{x}^*)\leq0$
补充知识结束

线性不可分的原问题为：
$min(\frac{1}{2}\pmb{w}^T\pmb{w}+C\sum_{i=1}^l\xi_i)$
$-(y_i\left(\pmb{w}^T\pmb{x_i}+b\right)-1+\xi_i)\leq0,\ \ \ i=1,2,\ldots,l$
$-\xi_i\leq0,\ \ \ i=1,2,\ldots,l$
构建拉格朗日乘子函数：
$L(\pmb{w},b,\alpha,\xi,\beta)=\frac{1}{2} \parallel \pmb{w}\parallel^2+C\sum_{i=i}^l\xi_i-\sum_{i=1}^l\alpha_i(y_i(\pmb{w}^T\pmb{x_i}+b)-1)-\sum_{i=1}\beta_i\xi_i$
根据KKT条件得出,在极值点处：
$\alpha_i(y_i\left(\pmb{w}^T\pmb{x_i}+b\right)-1+\xi_i)=0$
$\beta_i\xi_i=0$
当 $\alpha_i>0$
$y_i\left(\pmb{w}^T\pmb{x_i}+b\right)-1+\xi_i=0$
$y_i\left(\pmb{w}^T\pmb{x_i}+b\right)=1-\xi_i$
$\xi_i\geq0$
$\Downarrow$
$y_i\left(\pmb{w}^T\pmb{x_i}+b\right)\leq1$
当 $\alpha_i<C$
$\alpha_i+\beta_i=C$
$\Downarrow$
$\beta_i>0(\beta_i\xi_i=0)$
$\Downarrow$
$\xi_i=0$
$\Downarrow$
$y_i\left(\pmb{w}^T\pmb{x_i}+b\right)\geq1$
综上当 $0<\alpha_i<C$
$y_i\left(\pmb{w}^T\pmb{x_i}+b\right)=1$
当 $\alpha_i=0$
$\alpha_i+\beta_i=C$
$\Downarrow$
$\beta_i=C(\beta_i\xi_i=0)$
$\Downarrow$
$\xi_i=0$
$\Downarrow$
$y_i\left(\pmb{w}^T\pmb{x_i}+b\right)\geq1$
当 $\alpha_i=C$
$\alpha_i+\beta_i=C$
$\Downarrow$
$\beta_i=0(\beta_i\xi_i=0)$
$\Downarrow$
$\xi_i\geq0$
$\Downarrow$
$y_i\left(\pmb{w}^T\pmb{x_i}+b\right)\leq1$
总结如下：
$\alpha_i=0\Rightarrow y_i\left(\pmb{w}^T\pmb{x_i}+b\right)\geq1$
$0<\alpha_i<C\Rightarrow y_i\left(\pmb{w}^T\pmb{x_i}+b\right)=1$
$\alpha_i=C\Rightarrow y_i\left(\pmb{w}^T\pmb{x_i}+b\right)\leq1$

4.核函数

虽然引入了松弛变量和惩罚因子，可以处理线性不可分的问题，但SVM还是一个线性模型，只是允许错分样本的存在

4.1核映射

核映射 $\pmb{z}=\phi(\pmb{x})$ ，将向量 $\pmb{x}$ 映射为更高维的向量 $\pmb{z}$ 。问题变为：
$min_\alpha\frac{1}{2}\sum_{i=1}^l\sum_{j=1}^l\alpha_i\alpha_jy_iy_j\phi(\pmb{x_i})^T\phi(\pmb{x_j})-\sum_{k=1}^l\alpha_k$
$0\leq\alpha_i\leq C,\ \ \ i=1,\ldots,l$
$\sum_{i=1}^l\alpha_iy_i=0$
这样做的缺点是，如果 $\pmb{x}$ 本身的维度已经很高了，经过映射后边的维度更高，容易产生维度爆炸，导致计算困难。

4.2核函数

核函数先做内积，然后在做高维映射，其结果与核映射等价，这样就解决了上面的缺点：
$K(\pmb{x_i},\pmb{x_j})=K(\pmb{x_i}^T\pmb{x_j})=\phi(\pmb{x_i})^T\phi(\pmb{x_j})$
此时问题变为：
$min_\alpha\frac{1}{2}\sum_{i=1}^l\sum_{j=1}^l\alpha_i\alpha_jy_iy_jK(\pmb{x_i}^T\pmb{x_j})-\sum_{k=1}^l\alpha_k$
$0\leq\alpha_i\leq C,\ \ \ i=1,\ldots,l$
$\sum_{i=1}^l\alpha_iy_i=0$

此时的预测方程为：
$f(\pmb{x})=\sum_{i=1}^l\alpha_iy_iK(\pmb{x_i}^T\pmb{x})+b$

4.3 常用的核函数

不是任何一个函数都也可以用来做核函数的。核函数必须满足Mercer条件：对任意的有限个样本的样本集，核矩阵半正定。

核函数	计算公式
线性核	$K(\pmb{x_i},\pmb{x_j})=\pmb{x_i}^T\pmb{x_j}$
多项式核	$K(\pmb{x_i},\pmb{x_j})=(\gamma\pmb{x_i}^T\pmb{x_j}+b)^d$
高斯核	$K(\pmb{x_i},\pmb{x_j})=exp(-\gamma\parallel\pmb{x_i}-\pmb{x_j}\parallel^2)$
sigmoid核	$K(\pmb{x_i},\pmb{x_j})=tanh(\gamma\pmb{x_i}^T\pmb{x_j}+b)$

5.SMO算法

$min_\alpha\frac{1}{2}\sum_{i=1}^l\sum_{j=1}^l\alpha_i\alpha_jy_iy_jK(\pmb{x_i}^T\pmb{x_j})-\sum_{k=1}^l\alpha_k$
$0\leq\alpha_i\leq C,\ \ \ i=1,\ldots,l$
$\sum_{i=1}^l\alpha_iy_i=0$

上述问题是要求解 $l$ 个参数( $\alpha_1,\alpha_2,\alpha_3,\alpha_4,\ldots,\alpha_l$ )，令函数取最小值。有多种算法可以对上述问题求解，但是算法复杂度均很大。1998年，由Platt提出的序列最小最优化算法(SMO)可以高效的求解上述SVM问题。其基本思路是：如果所有变量的解都满足此最优化的KKT条件，那么这个最优化问题的解就得到了，因为KKT条件是该优化问题的充分必要条件。在实际操作过程中，每次选择两个变量，固定其他变量（当作常数），针对这两个变量构建一个二次规划问题，关于这两个变量的解应该更接近原始二次规划问题的解，因为这会使原始二次规划问题的目标函数值变得更小。这时子问题可以通过解析方法求解，这样可以大大提高整个算法的计算速度。

5.1 求解过程

第一步：设置 $\alpha$ 列表，并设其初始值为0（每个样本对应一个 $\alpha_i$ ）
第二步：选取两个待优化变量，为了方便，记为 $\alpha_1$ 和 $\alpha_2$ （启发式选择变量，后面细讲）
第三步：解释地求解两个变量的最优解 $\alpha_1^*$ 和 $\alpha_2^*$ ，并更新至 $\alpha$ 列表中
第四步：检查更新后的 $\alpha$ 列表是否在某个精度范围内满足KKT条件，若不满足返回第二步。

5.2 转换为二元函数

为了求解 $l$ 个参数，首先想到的是坐标上升的思路，例如求解 $\alpha_1$ ，可以固定其他 $l$ -1个参数，可以看成关于 $\alpha_1$ 的一元函数求解，但是注意到上述问题的等式约束条 $\sum_{i=1}^l\alpha_iy_i=0$ 件，如果值变动一个参数，等式约束条件将被违反，所以至少要两个参数一起变动。假设选择的变量为 $\alpha_1$ 和 $\alpha_2$ ，并固定其他参数 $\alpha_3$ ， $\alpha_4$ ， $\ldots$ ， $\alpha_l$ ，可以简化目标函数为只关于 $\alpha_1$ 和 $\alpha_2$ 的二元函数。
$min_{\alpha_1,\alpha_2}=\frac{1}{2}K_{11}\alpha_1^2+\frac{1}{2}K_{22}\alpha_2^2+y_1y_2K_{12}\alpha_1\alpha_2-(\alpha_1+\alpha_2)+y_1\upsilon_1\alpha_1+y_2\upsilon_2\alpha_2+Constant$
$K_{ij}=K(\pmb{x_i}^T\pmb{x_j})$
$\upsilon_i=\sum_{j=3}^l\alpha_jy_jK(\pmb{x_i}^T\pmb{x_j}),i=1,2$

5.3 转为一元函数

由等式约束可得：
$\alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^l\alpha_iy_i=\xi$
等式两边同乘以 $y_1$ ，且 $y_1^2=1$ ，结果为：
$\alpha1=(\xi-y_2\alpha_2)y_1$
将其带入二元函数方程，得到只关于参数 $\alpha_2$ 的一元函数，由于常数项不影响目标函数的解，以下省略掉常数项，结果为：
$min_{\alpha_2}=\frac{1}{2}K_{11}(\xi-y_2\alpha_2)^2+\frac{1}{2}K_{22}\alpha_2^2+y_2K_{12}(\xi-y_2\alpha_2)\alpha_2-(\xi-y_2\alpha_2)y_1-\alpha_2+\upsilon_1(\xi-y_2\alpha_2)+y_2\upsilon_2\alpha_2$

5.4 求一元函数的极值点

上式是关于变量 $\alpha_2$ 的函数，对上式求导并令其为0得：
$(K_{11}+K{22}-2K{12})\alpha_2-K_{11}\xi y_2+K_{12}\xi y_2+y_1y_2-1-\upsilon_1y_2+\upsilon_2y_2=0$
由上式中假设求得了 $\alpha_2$ 的解，带入下式可求得 $\alpha_1$ 的解
$\alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^l\alpha_iy_i=\xi$
分别记为 $\alpha_1^{new}$ ， $\alpha_2^{new}$ ，优化前的值记为 $\alpha_1^{old}$ ， $\alpha_2^{old}$ ，可得出：
$\alpha_1^{old}y_1+\alpha_2^{old}y_2=-\sum_{i=3}^l\alpha_iy_i=\alpha_1^{new}y_1+\alpha_2^{new}y_2=\xi$
$\Downarrow$
$\xi=\alpha_1^{old}y_1+\alpha_2^{old}y_2$

改写 $\upsilon_i$ ，得出：
$\upsilon_i=\sum_{j=3}^l\alpha_jy_jK(\pmb{x_i}^T\pmb{x_j}),i=1,2$
$f(\pmb{x_1})=\sum_{i=1}^l\alpha_iy_iK(\pmb{x_i}^T\pmb{x_1})+b$
$f(\pmb{x_2})=\sum_{i=1}^l\alpha_iy_iK(\pmb{x_i}^T\pmb{x_2})+b$
$\Downarrow$
$\upsilon_1=f(\pmb{x_1})-\sum_{j=1}^2\alpha_jy_jK(\pmb{x_1}^T\pmb{x_j})-b$
$\upsilon_2=f(\pmb{x_2})-\sum_{j=1}^2\alpha_jy_jK(\pmb{x_2}^T\pmb{x_j})-b$
将 $\xi$ 、 $\upsilon_1$ ， $\upsilon_2$ 带入上式：
$(K_{11}+K_{22}-2K_{12})\alpha_2^{new,unclipped}=(K_{11}+K_{22}-2K_{12})\alpha_2^{old}+y_2[y_2-y_1+f(\pmb{x_1})-f(\pmb{x_2})]$
定义 $E_i$ 表示预测值与真实值之差：
$E_i=f(\pmb{x_i})-yi$
记：
$\eta=K_{11}+K_{22}-2K_{12}$
得出：
$\alpha_2^{new,unclipped}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}$

5.5 对原始解修剪

上述求出的解未考虑到约束条件：
$0\leq\alpha_i\leq C,\ \ \ i=1,2$

$\alpha_1y_1+\alpha_2y_2=\xi$
当 $y_1 \neq y_2$ 时， $\alpha_1^{old}-\alpha_1^{old}=\xi$ ，所以有 $L=max(0,-\xi)$ ， $H=min(C,C-\xi)$ ，如下图所示：
在这里插入图片描述
当 $y_1 = y_2$ 时， $\alpha_1^{old}+\alpha_1^{old}=\xi$ ，所以有 $L=max(0,C-\xi)$ ， $H=min(C,\xi)$ ，如下图所示：

经过上述约束的修剪，最优解就可以记为 $\alpha_2^{new}$ :
$\alpha_2^{new}=\begin{cases} H & \alpha_2^{new,unclipped}>H\\ \alpha_2^{new,unclipped} & H\leq\alpha_2^{new,unclipped}\leq L \\ L & \alpha_2^{new,unclipped}<L \end{cases}$

5.6 求解 $\alpha_1^{new}$

由于：
$\alpha_1^{old}y_1+\alpha_2^{old}y_2=-\sum_{i=3}^l\alpha_iy_i=\alpha_1^{new}y_1+\alpha_2^{new}y_2$
得出：
$\alpha_1^{new}=\alpha_1^{old}+y_1y_2(\alpha_2^{old}-\alpha_2^{new})$

5.7 证明子问题是一个凸优化问题

二元函数为：
$min_{\alpha_1,\alpha_2}=\frac{1}{2}K_{11}\alpha_1^2+\frac{1}{2}K_{22}\alpha_2^2+y_1y_2K_{12}\alpha_1\alpha_2-(\alpha_1+\alpha_2)+y_1\upsilon_1\alpha_1+y_2\upsilon_2\alpha_2+Constant$
$\upsilon_i=\sum_{j=3}^l\alpha_jy_jK(\pmb{x_i}^T\pmb{x_j}),i=1,2$
其Hession矩阵为：
$\left[ \begin{matrix} y_1y_1K_{11} & y_1y_2K_{12}\\ y_2y_1K_{21} & y_2y_2K_{22} \end{matrix} \right]$
$\Downarrow$
$\left[ \begin{matrix} y_1y_1\phi(\pmb{x_1}) ^T\phi(\pmb{x_1})& y_1y_2\phi(\pmb{x_1}) ^T\phi(\pmb{x_2})\\ y_2y_1\phi(\pmb{x_2}) ^T\phi(\pmb{x_1}) & y_2y_2\phi(\pmb{x_2}) ^T\phi(\pmb{x_2}) \end{matrix} \right]$
$\Downarrow$

$\left[ \begin{matrix} y_1\phi(\pmb{x_1}) ^T\\ y_2\phi(\pmb{x_2}) ^T \end{matrix} \right]\left[ \begin{matrix} y_1\phi(\pmb{x_1}) , y_2\phi(\pmb{x_2}) \end{matrix} \right]=AA^T\geq0$
其Hession矩阵为半正定矩阵，一定可以找到全局极小值点。

5.8 启发式选择变量

第一个变量的选择

首先遍历 $0<\alpha_i<C$ 的样本集，选择违反KKT条件最严重（何为最严重，下面论述）的 $\alpha_i$ 作为第一个变量，接着依据相关规则选择第二个变量(见下面分析)，对这两个变量采用上述方法进行优化。接着遍历 $\alpha_i=0$ 或是 $\alpha_i=C$ 的样本集，选择违反KKT条件最严重的 $\alpha_i$ 。然后再次回到遍历 $0<\alpha_i<C$ 样本集中寻找，即在两个样本集上来回切换。直到遍历整个样本集后，没有违反KKT条件 $\alpha_i$ ，然后退出。
如何判断样本点是否满足KKT条件将上面的第4部分。
违反KKT条件严重程度的量化方法有许多，下面介绍一种最为简单的：
$l_i=|y_if(\pmb{x_i}-1)|$
既计算样本点的预测值与标签值乘积与1的差值，具体操作如下：
当 $0<\alpha_i<C$ 时候，如果满足KKT条件（ $y_i\left(\pmb{w}^T\pmb{x_i}+b\right)=1$ ）, $l_i=0$ （此时违反KKT条件严重程度最低）。如果不满足KKT条件，按如上公式计算 $l_i$ 值
当 $\alpha_i=0$ 时候，如果满足KKT条件（ $y_i\left(\pmb{w}^T\pmb{x_i}+b\right)\geq1$ ）, $l_i=0$ 。如果不满足KKT条件，按如上公式计算 $l_i$ 值
当 $\alpha_i=C$ 时候，如果满足KKT条件（ $y_i\left(\pmb{w}^T\pmb{x_i}+b\right)\geq1$ ）, $l_i=0$ 。如果不满足KKT条件，按如上公式计算 $l_i$ 值
将所有样本点的 $l_i$ 值缓存起来， $l_i$ 值最大的既为违反KKT条件最严重的样本点。

第二个变量的选择

假设找到的第一个变量记为 $\alpha_i$ ，第二个变量 $\alpha_j$ 的选择希望能使 $\alpha_j$ 有较大的变化，由于 $\alpha_i$ 的计算是依赖于 $E_i-E_j|$ 的，当 $E_i-E_j|$ 较大时， $\alpha_i$ 可以得到最大程度的更新（贪婪法），因此当 $E_i$ 为正时，那么选择最小的 $E_j$ ；如果 $E_i$ 为负，选择最大 $E_j$ 。通常将每个样本的 $E$ 保存在一个列表中。

5.9 b的计算

每次完成对两个变量的优化后，要对 $b$ 的值进行更新，因为 $b$ 的值关系到 $f (x)$ 的计算，即关系到下次优化时 $E_i$ 的计算。对于任意支持向量（ $\pmb{x_s},y_s$ )都有， $y_sf(\pmb{x_s})=1$ 既：
$y_s(\sum_{i\in S}\alpha_iy_i\pmb{x_i}^T\pmb{x_s}+b)=1$
其中 $S=\{i|0<\alpha_i<C,i=1,2,\ldots,m\}$ 为所有支持向量的下标集。理论上，可选任意支持向量并通过求解上式获得 $b$ ，但现实任务中常采用一种更鲁棒的做法，使用所有支持向量求解的平均值：
$b=\frac{1}{|s|}\sum_{s\in S}(\frac{1}{y_s}-\sum_{i\in S}\alpha_iy_i\pmb{x_i}^T\pmb{x_s})$

prosmail

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
支持向量机算法推导

1.支持向量机的基本思想基于训练集D在样本空间中找到一个划分超平面（在二维空间中为一条直线，在三维空间中为一个平面），将不同类别的样本分开。问题来了，这样的超平面有很多，我们应该努力去找到哪一个呢，哪一个是最好的呢？基于上述问题，我们提出三个判定标准：1.可以正确分割样本；2.留有大量的余量，既分类超平面尽可能的离两类样本尽可能的远（分类超平面对测试样本有最强的泛化能力）3.位于两类训练样本...
复制链接

扫一扫