SVM算法理论推导

栋察一切

已于 2022-04-19 22:24:18 修改

阅读量260

点赞数

分类专栏：机器学习文章标签：机器学习

于 2020-03-01 12:50:45 首次发布

本文链接：https://blog.csdn.net/ffcyygd/article/details/104590312

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

东边有棵树的博客# SVM算法理论推导

断断续续折腾了好几天，终于对SVM算法有了个大致的了解，趁热将自己的理解写下来，一方面加深自己的理解，另一方面以便日后有所遗忘时可随时查阅。理解有不对的地方，请大家多多批评指正。

(1)将原问题化为对偶问题

支持向量机的原问题：
$最小化：\frac{1}{2}||W||^2+C\sum_{i=1}^N\xi_i\\ 限制条件： \begin{cases} \xi_i\ge0~~~i=1\cdots N\\ y_i[W^T\varphi(X_i)+b]\ge1-\xi_i~~~i=1\cdots N \end{cases}\tag{1}$
那这个原问题对应的对偶问题是什么样的形式呢？我们再来回顾一下原问题与对偶问题的定义：

原问题：
$最小化:~~~f(w)\\限制条件: \begin{cases} g_i(w)\leq0~~~i=1\cdots K\\ h_i(w)=0~~~i=1\cdots M \end{cases}\tag{2}$
定义一函数 $L(w,\alpha,\beta)$ 为：
$L(w,\alpha,\beta)=f(w)+ \sum_{i=1}^K\alpha_ig_i(w)+\sum_{i=1}^M\beta_ih_i(w)\tag{3}$
当然可以用矩阵写成简单的形式：
$L(w,\alpha,\beta)=f(w)+\alpha^Tg(w)+\beta^Th(w) \tag{4}$
公式 $(3)$ 中 $\alpha^T$ 和 $g (w)$ 都是 $K$ 维的，而 $\beta^T$ 和 $h (w)$ 都是 $M$ 维的。则原问题的对偶问题为：
$最大化\quad\theta(\alpha,\beta)=\inf \limits_{所有w}\{~L(w,\alpha,\beta)~\}\\限制条件：\alpha_i~\ge~0\quad(i=1\cdots K)\tag{5}$
其中 $\inf \limits_{所有w}\{~L(w,\alpha,\beta)~\}$ 的意思是在限制 $\alpha$ 和 $\beta$ 的情况下遍历所有的 $w$ 求最小值，即每确定一个 $\alpha$ 和 $\beta$ 都能算出一个最小值，即每一个 $\alpha$ 和 $\beta$ 都对应一个值，很明显，这是 $\alpha$ 和 $\beta$ 的函数，故写作 $\theta(\alpha,\beta)$ 。那么公式 $(4)$ 是针对所有的 $\alpha$ 和 $\beta$ 求最大值，即在所有的最小值中找最大的。

我们发现原问题和对偶问题的定义中原问题的限制条件都是小于等于0的，所以为了更好的进行改写，我们也需要对支持向量机的原问题，即公式 $(1)$ 进行适当的改写，这样就可以很方便的写出其对偶问题。我们看到， $(1)$ 中的限制条件都是大于等于0的，我们要将他们改成小于等于0的，以此对应于 $(2)$ 中的 ${g_i(w)\leq 0}$ 。具体改法如下：
$首先将\xi_i \ge0 改为\xi_i \leq0 \\ 则(1)中的最小化的目标函数就要改为：\\ {\frac{1}{2} \|W\|^2-C \sum_{i=1}^N \xi_i}\\而y_i [W^T \varphi(X_i)+b] \ge1- \xi_i就要改为：\\ y_i [W^T \varphi(X_i)+b] \ge1+ \xi_i\\ 对它再进行一次改造就变成：\\1+\xi_i-y_iW^T\varphi(X_i)-y_ib\leq0\\$
我们也可以看出 $(1)$ 中并没有对应于 $(2)$ 中 $h_i(w)=0$ 的限制条件。这样支持向量机的原问题 $(1)$ 就可以改写成如下形式的原问题：
$最小化：\frac{1}{2}||W||^2-C\sum_{i=1}^N\xi_i\\ \tag{6} 限制条件： \begin{cases} \xi_i\leq0~~~i=1\cdots N\\ 1+\xi_i-y_iW^T\varphi(X_i)-y_ib\leq0~~~i=1\cdots N \end{cases}$
我们就可以写出其对偶问题为：
$最大化：\theta(\alpha,\beta)=\inf \limits_{所有W,b,\xi_i}\{\frac{1}{2}||W||^2-C\sum_{i=1}^N\xi_i+\sum_{i=1}^N\beta_i\xi_i+\sum_{i=1}^N\alpha_i[1+\xi_i-y_iW^T\varphi(X_i)-y_ib]\}\tag{7}\\ 限制条件：\alpha_i\ge0,\beta_i\ge0$
上式中的 $\alpha_i,\beta_i$ 就对应 $(5)$ 式中的 $\alpha_i$ 。 $(2)$ 式中我们待求的是 $w$ ，而对应到 $(6)$ 式中我们待求的就是 $W,b,\xi_i$ ，所以在 $(7)$ 式中的 $i n f$ 下面是遍历所有的 $W,b,\xi_i$ 。

(2)对偶问题化简

为了方便，我们令：
$L(W,b,\xi_i)=\frac{1}{2}||W||^2-C\sum_{i=1}^N\xi_i+\sum_{i=1}^N\beta_i\xi_i+\sum_{i=1}^N\alpha_i[1+\xi_i-y_iW^T\varphi(X_i)-y_ib]\tag{8}$
遍历所有的 $W,b,\xi_i$ 求 $L(W,b,\xi_i)$ 的最小值，我们利用 $L(W,b,\xi_i)$ 对 $W,b,\xi_i$ 求偏导并使偏导为0来求，最终得到的最小值的表达式肯定是 $\alpha,\beta$ 的函数。
$\left\{ \begin{array}{c} \frac{\partial L}{\partial W}=W-\sum_{i=1}^N\alpha_iy_i\varphi(X_i)=0\\ \frac{\partial L}{\partial b}=-\sum_{i=1}^N\alpha_i y_i=0\\ \frac{\partial L}{\partial \xi_i}=-NC+N\beta_i+N\alpha_i=0\tag{9} \end{array} \right.$
进一步可推得：
$W=\sum_{i=1}^N\alpha_iy_i\varphi(X_i)\tag{10}$

$\sum_{i=1}^N\alpha_i y_i=0\tag{11}$

$\alpha_i+\beta_i = C \tag{12}$

将式 $(10) 、 (11) 、 (12)$ 带入公式 $(7)$ 得：
$最大化：\theta(\alpha,\beta)=\sum_{i=1}^N\alpha_i-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^Ny_iy_j\alpha_i\alpha_j\varphi(X_i)^T\varphi(X_j)\tag{13}$
计算时比较麻烦的是 $\frac{1}{2}||W||^2$ ，这里将计算过程记录一下。 $W||^2$ 可以写作：
$||W||^2=W^TW=\sum_{i=1}^N\alpha_iy_i\varphi(X_i)^T \sum_{j=1}^N\alpha_jy_j\varphi(X_j)\tag{14}$
将公式 $(14)$ 展开就可以得到：
$||W||^2 = [\alpha_1 y_1 \varphi(X_1)^T+\alpha_2 y_2 \varphi(X_2)^T+\alpha_3 y_3 \varphi(X_3)^T+\cdots +\alpha_N y_N \varphi(X_N)^T]\\*[\alpha_1 y_1 \varphi(X_1)+\alpha_2 y_2 \varphi(X_2)+\alpha_3 y_3 \varphi(X_3)+\cdots +\alpha_N y_N \varphi(X_N)]\tag{15}$
则将式 $(15)$ 中第一行中括号里的变量分别乘以整个第二行整个中括号的表达式，然后再加起来即可：
$||W||^2 = \alpha_1 y_1 \varphi(X_1)^T*[\alpha_1 y_1 \varphi(X_1)+\alpha_2 y_2 \varphi(X_2)+\alpha_3 y_3 \varphi(X_3)+\cdots +\alpha_N y_N \varphi(X_N)]\\ +\alpha_2 y_2 \varphi(X_2)^T*[\alpha_1 y_1 \varphi(X_1)+\alpha_2 y_2 \varphi(X_2)+\alpha_3 y_3 \varphi(X_3)+\cdots +\alpha_N y_N \varphi(X_N)]\\ +\alpha_3 y_3 \varphi(X_3)^T*[\alpha_1 y_1 \varphi(X_1)+\alpha_2 y_2 \varphi(X_2)+\alpha_3 y_3 \varphi(X_3)+\cdots +\alpha_N y_N \varphi(X_N)]\\ \cdots\\ +\alpha_N y_N \varphi(X_N)^T*[\alpha_1 y_1 \varphi(X_1)+\alpha_2 y_2 \varphi(X_2)+\alpha_3 y_3 \varphi(X_3)+\cdots +\alpha_N y_N \varphi(X_N)]\tag{16}$
而我们又知道两个 $\sum$ 在一起，表示第一个固定的情况下，第二个从头改变到到尾，然后第一个再改变一下，第二个再从头改变到尾，一直到第一个改变到最后，把整个过程加起来。所以上面的 $(16)$ 式就可以写作：
$||W||^2 = \sum_{i=1}^N\sum_{j=1}^Ny_iy_j\alpha_i\alpha_j\varphi(X_i)^T\varphi(X_j)\tag{17}$
接下来我们来看限制条件有什么变化：
$因为：\alpha_i \ge 0,\beta_i \ge0\\根据公式(12)又可知：\alpha_i+\beta_i = C\\ 所以可得：0 \leq \alpha_i \leq C\\ 根据公式(11)又有：\sum_{i=1}^N\alpha_i y_i=0$
所以最终可得对偶问题化简以后问题为：
$最大化：\theta(\alpha,\beta)=\sum_{i=1}^N\alpha_i-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^Ny_iy_j\alpha_i\alpha_j\varphi(X_i)^T\varphi(X_j)\\ 限制条件：\begin{cases} 0 \leq \alpha_i \leq C ~~~i=1\cdots N\\ \sum_{i=1}^N\alpha_i y_i=0~~~i=1\cdots N \end{cases}\tag{18}$
其中的 $\varphi(X_i)^T\varphi(X_j)$ 正好是核函数，从这点可看出我们并不需要知道 $\varphi(X)$ 的显示表达就可进行求解。同时这也是一个二次规划问题，可以使用通用的二次规划算法来求解，但有一种更高效简单的算法叫SMO算法。这个算法我们以后再说。

(3)求出分割超平面

当我们要求 $W$ 时，我们发现一个问题：
$W=\sum_{i=1}^N\alpha_i y_i\varphi(X_i)\tag{19}$
我们并不知道 $\varphi(X_i)$ 的具体表达式，根本无法求出 $W$ ，事实是我们根本不用求出 $W$ 。因为我们最终的结果是测试时，每输入一个样本 $X$ ，看 $W^T \varphi(X)+b$ 的结果是大于等于0还是小于0就行了。大于等于0的是一类，小于0的是另一类。于是我们有：
$W^T \varphi(X)=\sum_{i=1}^N\alpha_i y_i\varphi(X_i)^T\varphi(X)=\sum_{i=1}^N\alpha_i y_i K(X_i,X)\tag{20}$
核函数又一次出现，解决了这个问题。接下来我们求 $b$ ，根据 $K K T$ 条件，对所有的 $i=1\cdots N$ ，有：
$\alpha_i[1+\xi_i-y_iW^T\varphi(X_i)-y_i b]=0\\ \beta_i \xi_i = 0\Rightarrow (C-\alpha_i) \xi_i = 0$
$\alpha$ 是一个向量，可以写成矩阵形式 $\alpha=[\alpha_1,\alpha_2,\alpha_3\cdots \alpha_k\cdots\alpha_N]^T$ ，如果对于 $\alpha$ 的某一个分量 $\alpha_k$ ，有 $\alpha_k\neq0$ 且 $\alpha_k\neq C$ ，则根据 $K K T$ 条件，必有 $\xi_k = 0$ ，且：
$1+\xi_k-y_kW^T\varphi(X_k)-y_k b = 0\tag{21}$
其种 $X_k$ 就是 $\alpha_k$ 对应的训练样本， $y_kW^T\varphi(X_k)$ 可以写成：
$y_kW^T\varphi(X_k) = y_k \sum_{i=1}^N \alpha_i y_i K(X_i,X_k)\tag{22}$
所以，只须找一个 $\leq \alpha_k \leq C$ ，就可将 $b$ 求出：
$b=\frac{1-y_k \sum_{i=1}^N \alpha_i y_i K(X_i,X_k)}{y_k}\tag{23}$
实际任务中常采用一种更鲁棒的做法：选择多个处于 $0$ 到 $C$ 之间的 $\alpha$ 的分量求出多个 $b$ 然后取平均。

(4)测试

对于一个测试样本 $X$ ，我们要判断其所属的类别，则我们计算
$W^T \varphi(X)+b=\sum_{i=1}^N \alpha_i y_i \varphi(X_i)^T \varphi(X)+b\tag{24} = \sum_{i=1}^N \alpha_i y_i K(X_i,X)+b$
判别标准为：
$\begin{cases} 如果\sum_{i=1}^N \alpha_i y_i K(X_i,X)+b \ge 0，则X \in C_1\\ 如果\sum_{i=1}^N \alpha_i y_i K(X_i,X)+b < 0，则X \in C_2 \end{cases}$
最终我们只通过核函数也能完成对 $X$ 的类别判决。

栋察一切

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SVM算法理论推导

SVM算法理论推导断断续续折腾了好几天，终于对SVM算法有了个大致的了解，趁热将自己的理解写下来，一方面加深自己的理解，另一方面以便日后有所遗忘时可随时查阅。理解有不对的地方，请大家多多批评指正。(1)将原问题化为对偶问题支持向量机的原问题：最小化：12∣∣W∣∣2+C∑i=1Nξi限制条件：{ξi≥0   i=1⋯Nyi[WTφ(Xi)+b]≥1−ξi&nb...
复制链接

扫一扫