硬间隔支持向量机(下)-CSDN博客

本文链接：https://blog.csdn.net/EncodingLee/article/details/142391867

支持向量机

1. 支持向量机

1. 支持向量机

1.1 支持向量机模型

给定一个线性可分数据集 $\mathcal{D}=\{(x_i，y_i)|x_i \in \mathcal{R^n}， y_i \in \{-1，1\}\}$ ，一个法向量 $\vec{w}$ 和偏置 $b$ ，则记 $M$ 为示例的最小几何间隔。
$M=\min_{i=1,\dots,m}\gamma_i = \min_{i=1,\dots,m}y_i(\frac{\vec{w}^T}{||\vec{w}||}\vec{x_i} + \frac{b}{||\vec{w}||}) \tag{1-5}$
通过公式 1-2 可知，SVM 优化问题可以写成下面形式：
$\max_{\vec{w},b} M \\ s.t. \gamma_i \geq M，i=1, \cdots, m \tag{1-6}$
这个约束条件保证了每个样本点的几何间隔只少为 $M$ ，即数据集 $\mathcal{D}$ 是线性可分的，具体来说：

正样本( $y_i=1$ )：对于正样本，这个条件就变为 $\vec{w}^T\vec{x_i} + b \geq M||\vec{w}||$ 。这确保了正样本在超平面的正侧，并且距离超平面至少为 $M$ 。
负样本( $y_i=-1$ )：对于负样本，这个条件就变为 $\vec{w}^T\vec{x_i} + b \leq -M||\vec{w}||$ 。这确保了负样本在超平面负侧，并且距离超平面至少为 $M$ 。

根据比率不变性，我们可以令 $M||\vec{w}|| = 1$ ，原优化问题的约束条件依然不变(数据线性可分)，简化后的方程如下：
$\max_{\vec{w},b}\frac{1}{{||\vec{w}||}} \\ s.t.\quad y_i(\vec{w}^T\vec{x_i} + b) \geq 1，i=1, \cdots, m$
在运筹学中，一般将最大值优化问题转化最小值优化问题，即
$\min_{\vec{w},b}\frac{1}{2}||\vec{w}||^2 \\ s.t. \quad 1 - y_i(\vec{w}^T\vec{x_i} + b) \leq 0，i=1, \cdots, m \tag{1-7}$
其中，目标函数乘以 $\frac{1}{2}$ 为了简化优化过程。很显然，该优化为凸优化问题，更具体，它是一个二次优化问题 - 目标函数是二次函数，约束条件是线性函数。这个优化问题可以使用现成的二次规划(Quadratic Programming，QP)优化器进行求解。

1. 2 模型求解

1.2.1 原问题转换为Lagrange对偶问题

第一步： 固定 $\lambda$ ，让 $\mathscr{L}$ 关于 $\vec{w}$ 和 $b$ 最小化。
构建Lagrange函数：
$\mathscr{L}=\frac{1}{2}||\vec{w}||^2 + \sum_{i=1}^{m}\lambda_i\{1 - y_i(\vec{w}^T\vec{x_i} + b)\} \tag{1-8}$
解：
$\begin{align*} \mathscr{L}&=\frac{1}{2}\vec{w}^T\vec{w} + \sum_{i=1}^{m}\lambda_i\{1 - y_i(\vec{w}^T\vec{x_i} + b)\} \\ &= \frac{1}{2}\vec{w}^T\vec{w} + \sum_{i=1}^{m}\lambda_i - \sum_{i=1}^{m}\lambda_iy_i\vec{w}^T\vec{x_i} - \sum_{i=1}^{m}\lambda_iy_ib \end{align*}$
对 $\vec{w}，b$ 求偏导，并令其等于0，可得
$\frac{\partial{\mathscr{L}}}{\partial{\vec{w}}} = \vec{w} - \sum_{i=1}^{m}\lambda_iy_i\vec{x_i} = 0 \\ \frac{\partial{\mathscr{L}}}{\partial{b}} = \sum_{i=1}^{m}\lambda_iy_i = 0$
则
$\vec{w} = \sum_{i=1}^{m}\lambda_iy_i\vec{x_i} \\ \sum_{i=1}^{m}\lambda_iy_i = 0$
将以上结果代回式(1-8)，可得
$\begin{align} \mathscr{L}&=\frac{1}{2}\vec{w}^T\vec{w} + \sum_{i=1}^{m}\lambda_i - \sum_{i=1}^{m}\lambda_iy_i\vec{w}^T\vec{x_i} - \sum_{i=1}^{m}\lambda_iy_ib \\ &=\frac{1}{2}\vec{w}^T\sum_{i=1}^{m}\lambda_iy_i\vec{x_i} - \vec{w}^T \sum_{i=1}^{m}\lambda_iy_i\vec{x_i} + \sum_{i=1}^{m}\lambda_i \\ &=\sum_{i=1}^{m}\lambda_i - \frac{1}{2}\vec{w}^T\sum_{i=1}^{m}\lambda_iy_i\vec{x_i} \\ &=\sum_{i=1}^{m}\lambda_i - \frac{1}{2}(\sum_{i=1}^{m}\lambda_iy_i\vec{x_i})^T\sum_{i=1}^{m}\lambda_iy_i\vec{x_i} \\ &=\sum_{i=1}^{m}\lambda_i - \frac{1}{2}\sum_{i=1，j=1}^{m}\lambda_i\lambda_jy_i\vec{x_i}^Ty_j\vec{x_j} \end{align} \tag{1-9}$
从上式可以看出，使用Lagrange定理求解凸优化问题可以使用一个对偶变量表示，转换为对偶问题后，通常比原问题更加容易处理。

1.2.2 Lagrange对偶问题求解

第二步： 证明极大值存在，求对 $\lambda$ 的极大，即
$\max_{\lambda}{\sum_{i=1}^{m}\lambda_i - \frac{1}{2}\sum_{i=1, j=1}^{m}\lambda_i\lambda_jy_i\vec{x_i}^Ty_j\vec{x_j}} \\ s.t. \begin{cases} \lambda_i \geq 0，\quad\quad\quad\quad i=1, \cdots, m \\ \sum_{i=1}^{m}\lambda_iy_i = 0 \end{cases}$
其矩阵形式为：
$\begin{align*} W(\lambda) &= {\sum_{i=1}^{m}\lambda_i - \frac{1}{2}\sum_{i=1, j=1}^{m}\lambda_i\lambda_jy_iy_j\vec{x_i}^T\vec{x_j}} \\ &= \begin{bmatrix} 1，1，\cdots，1 \end{bmatrix} \begin{bmatrix} \lambda_1 \\ \lambda_2 \\ \vdots \\\lambda_m \end{bmatrix}- \frac{1}{2} \begin{bmatrix} \lambda_1，\lambda_2，\cdots，\lambda_m \end{bmatrix} \begin{bmatrix} y_1y_1\vec{x_1}^T\vec{x_1} & y_1y_2\vec{x_1}^T\vec{x_2} & \cdots & y_1y_m\vec{x_1}^T\vec{x_m} \\ y_2y_1\vec{x_2}^T\vec{x_1} & y_2y_2\vec{x_2}^T\vec{x_2} & \cdots & y_2y_m\vec{x_2}^T\vec{x_m} \\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ y_my_1\vec{x_m}^T\vec{x_m} & y_my_2\vec{x_m}^T\vec{x_2} & \cdots & y_my_m\vec{x_m}^T\vec{x_m} \end{bmatrix} \begin{bmatrix} \lambda_1 \\ \lambda_2 \\ \vdots \\\lambda_m \end{bmatrix} \end{align*}$
令 $\vec{\lambda}= \begin{bmatrix}\lambda_1 \\ \lambda_2 \\ \vdots \\\lambda_m\end{bmatrix}$ ， $\begin{bmatrix} y_1y_1\vec{x_1}^T\vec{x_1} & y_1y_2\vec{x_1}^T\vec{x_2} & \cdots & y_1y_m\vec{x_1}^T\vec{x_m} \\ y_2y_1\vec{x_2}^T\vec{x_1} & y_2y_2\vec{x_2}^T\vec{x_2} & \cdots & y_2y_m\vec{x_2}^T\vec{x_m} \\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ y_my_1\vec{x_m}^T\vec{x_m} & y_my_2\vec{x_m}^T\vec{x_2} & \cdots & y_my_m\vec{x_m}^T\vec{x_m} \end{bmatrix}$ 则
$W(\lambda) = \vec{\lambda} - \frac{1}{2}\vec{\lambda}^TM\vec{\lambda}$
要证明 $W(\lambda)$ 极大值存在，则要证明M负定。
（1）证明：
令
$\begin{bmatrix} \vec{x_1}^T\vec{x_1} & \vec{x_1}^T\vec{x_2} & \cdots & \vec{x_1}^T\vec{x_m} \\ \vec{x_2}^T\vec{x_1} & \vec{x_2}^T\vec{x_2} & \cdots & \vec{x_2}^T\vec{x_m} \\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ \vec{x_m}^T\vec{x_m} & \vec{x_m}^T\vec{x_2} & \cdots & \vec{x_m}^T\vec{x_m} \end{bmatrix}$

则
$W(\lambda) = \frac{1}{2}\vec{\lambda}^T\vec{y}^TH\vec{\lambda}\vec{y} - \vec{\lambda}$
又因为 $H$ 是基于向量 $\vec{x_i}$ 的内积矩阵，也称为Gram矩阵，即 $H$ 为半正定矩阵，极小值存在。
（2）使用SMO求解极大值
        前面给出了支持向量机的对偶问题，接下来我们将使用顺序最小优化算法（Sequential Minimal Optimization，SMO）求解对偶问题。算法的核心思想是每次在优化变量中选择两个分量进行优化，让其他分量固定，针对这两个分量进行优化，且使它们满足KKT条件。每进行一次优化，优化参数越接近最优解，反复执行此步骤，直至所有变量满足KKT条件时，便可获得最优解。
        假设在某次优化过程中，选择的优化变量为 $\lambda_1，\lambda_2$ ，其他变量 $\lambda_3，\lambda_4，\cdots，\lambda_m$ 设为常数，则最优化问题变为：
$\min_{\lambda}W(\lambda) = {\frac{1}{2}\sum_{i=1, j=1}^{m}\lambda_i\lambda_jy_i\vec{x_i}^Ty_j\vec{x_j} - \sum_{i=1}^{m}\lambda_i} \tag{1-10}\\ s.t. \begin{cases} \lambda_i \geq 0，\quad\quad\quad\quad i=1, 2, \cdots, m \\ \sum_{i=1}^{m}\lambda_iy_i = 0 \end{cases}$
为了书写方便，我们将优化变量为 $\lambda_1，\lambda_2$ 从 $\sum_{i=1, j=1}^{m}\lambda_i\lambda_jy_i\vec{x_i}^Ty_j\vec{x_j}$ 拆分出来，即
$\begin{align*} \sum_{i=1, j=1}^{m}\lambda_i\lambda_jy_iy_j\vec{x_i}^T\vec{x_j} &= \sum_{i=1}^{m}\sum_{j=1}^{m}\lambda_i\lambda_jy_iy_j\vec{x_i}^T\vec{x_j} \\ &=\lambda_1y_1\sum_{j=1}^{m}\lambda_jy_j\vec{x_1}^T\vec{x_j} + \lambda_2y_2\sum_{j=1}^{m}\lambda_jy_j\vec{x_2}^T\vec{x_j} + \sum_{i=3}^{m}\sum_{j=1}^{m}\lambda_i\lambda_jy_iy_j\vec{x_i}^T\vec{x_j} \\ &=(\lambda_1^2y_1^2\vec{x_1}^T\vec{x_1} + \lambda_1\lambda_2y_1y_2\vec{x_1}^T\vec{x_2}+\lambda_1y_1\sum_{j=3}^{m}\lambda_jy_j\vec{x_1}^T\vec{x_j}) +(\lambda_1\lambda_2y_1y_2\vec{x_1}^T\vec{x_2} + \lambda_2^2y_2^2\vec{x_2}^T\vec{x_2}+\lambda_2y_2\sum_{j=3}^{m}\lambda_jy_j\vec{x_2}^T\vec{x_j}) + (\lambda_1y_1\sum_{i=3}^{m}\lambda_iy_i\vec{x_i}^T\vec{x_1} + \lambda_2y_2\sum_{i=3}^{m}\lambda_iy_i\vec{x_i}^T\vec{x_2} + \sum_{i=3}^{m}\sum_{j=3}^{m}\lambda_i\lambda_jy_iy_j\vec{x_i}^T\vec{x_j}) \end{align*}$
为了描述方便，我们去掉与 $\lambda_1，\lambda_2$ 无关的常数项，则上式可简化为：
$\lambda_1^2y_1^2\vec{x_1}^T\vec{x_1} + \lambda_2^2y_2^2\vec{x_2}^T\vec{x_2}+ 2\lambda_1\lambda_2y_1y_2\vec{x_1}^T\vec{x_2}+2\lambda_1y_1\sum_{j=3}^{m}\lambda_jy_j\vec{x_1}^T\vec{x_j} + +2\lambda_2y_2\sum_{j=3}^{m}\lambda_jy_j\vec{x_2}^T\vec{x_j} \tag{1-11}$
则对偶优化问题变为：
$\min_{\lambda_1,\lambda_2}W(\lambda_1,\lambda_2)=\frac{1}{2}\lambda_1^2\vec{x_1}^T\vec{x_1} + \frac{1}{2}\lambda_2^2\vec{x_2}^T\vec{x_2}+ \lambda_1\lambda_2y_1y_2\vec{x_1}^T\vec{x_2}+\lambda_1y_1\sum_{j=3}^{m}\lambda_jy_j\vec{x_1}^T\vec{x_j} + +\lambda_2y_2\sum_{j=3}^{m}\lambda_jy_j\vec{x_2}^T\vec{x_j} - (\lambda_1 + \lambda_2) \\ s.t. \begin{cases} \lambda_i \geq 0，\quad\quad\quad\quad i=1, 2, \cdots, m \\ \sum_{i=1}^{m}\lambda_iy_i = 0 \end{cases}$
根据约束条件 $\sum_{i=1}^{m}\lambda_iy_i = 0$ 可推导出：
$\lambda_1y_1 + \lambda_2y_2 = -\sum_{i=3}^{m}\lambda_iy_i$
又因为其他优化变量为常量，则上式可写为：
$\lambda_1y_1 + \lambda_2y_2 = \zeta \tag{1-12}$
通过式1-12可以看出， $\lambda_1，\lambda_2$ 位于一条直线上，由于 $y_i \in (1,-1)$ ，所以直线的斜率只能为 $\pm1$ 。由约束条件 $\leq \lambda_i \leq C$ 可知， $\lambda_1，\lambda_2$ 在下图的直线上取值。
        对于以上优化问题，我们可以先忽略第一个约束条件 $\leq \lambda_i \leq C$ ，利用Lagrange乘数法，作为Lagrange函数：
$\mathscr{L}(\lambda_1,\lambda_2,\alpha) = W(\lambda_1,\lambda_2) + \alpha(\lambda_1y_1 + \lambda_2y_2 - \zeta)$
求各偏导数，并令其为0，得：
$\frac{\partial{\mathscr{L}}}{\partial{\lambda_1}} = \lambda_1\vec{x_1}^T\vec{x_1}+y_1y_2\lambda_2\vec{x_1}^T\vec{x_2}+y_1\sum_{j=3}^{m}\lambda_jy_j\vec{x_1}^T\vec{x_j} - 1 + \alpha y_1=0 \\ \frac{\partial{\mathscr{L}}}{\partial{\lambda_2}} = \lambda_2\vec{x_2}^T\vec{x_2}+y_1y_2\lambda_1\vec{x_1}^T\vec{x_2}+y_2\sum_{j=3}^{m}\lambda_jy_j\vec{x_1}^T\vec{x_j} - 1 + \alpha y_2=0$
为了简化，令
$v_1 = \sum_{j=3}^{m}\lambda_jy_j\vec{x_1}^T\vec{x_j}\\ v_2 = \sum_{j=3}^{m}\lambda_jy_j\vec{x_1}^T\vec{x_j}$
对上述1式乘以 $y_1$ ，上述2式乘以 $y_2$ ，可得
$\frac{\partial{\mathscr{L}}}{\partial{\lambda_1}} = y_1\lambda_1\vec{x_1}^T\vec{x_1}+y_2\lambda_2\vec{x_1}^T\vec{x_2}+v_1 - y_1 + \alpha=0 \\ \frac{\partial{\mathscr{L}}}{\partial{\lambda_2}} = y_2\lambda_2\vec{x_2}^T\vec{x_2}+y_1\lambda_1\vec{x_1}^T\vec{x_2}+v_2 - y_2 + \alpha=0$
由上式可得
$(v_1-y_1)-(v_2-y_2) + \zeta\vec{x_1}^T\vec{x_1} - \zeta\vec{x_1}^T\vec{x_2} = y_2\lambda_2(\vec{x_1}^T\vec{x_1}+\vec{x_2}^T\vec{x_2}-2\vec{x_1}^T\vec{x_2}) \tag{1-13}$
通过该式可以看出，除 $\lambda_2$ 以外，其余都是常数，因此， $\lambda_2$ 可以由该等式计算。由于该等式比较复杂，不便于描述，因此需要进一步整理，使得解得形式更加简洁。
        在优化过程中，当前 $\lambda$ 求得得超平面方程为：
$g(\vec{x}) = \sum_{i=1}^{m}\lambda_iy_i\vec{x_i}^T\vec{x} + b$
设 $E(\vec{x_i}) = g(\vec{x_i}) - y_i，i=1,2$ ， $\lambda_1^{old}，\lambda_2^{old}$ 为优化前得值，根据约束条件可得
$y_1\lambda_1^{old}+y_2\lambda_2^{old}=\zeta \tag{1-14}$
观察 $v_1，v_2$ 形式，发现
$v_1 =g(\vec{x_1}) - b - y_1\lambda_1^{old}\vec{x_1}^T\vec{x_1} - y_2\lambda_2^{old}\vec{x_1}^T\vec{x_2} \tag{1-15}$
$v_2 =g(\vec{x_2}) - b - y_1\lambda_1^{old}\vec{x_1}^T\vec{x_2} - y_2\lambda_2^{old}\vec{x_2}^T\vec{x_2} \tag{1-16}$

将1-14~16代回1-13整理, 可得最终新的 $\lambda_2^{new,unc}$ 为：
$\lambda_2^{new,unc}=\lambda_2^{old}+\frac{y_2(E(\vec{x_1})-E(\vec{x_2}))}{\vec{x_1}^T\vec{x_1}+\vec{x_2}^T\vec{x_2}-2\vec{x_1}^T\vec{x_2}}$
通过第一个约束条件，可推导出：
$\leq \lambda_2^{new}\leq H$
其中， $L, H$ 为直线与方形边界交点的 $\lambda_2$ 值。 $L, H$ 可根据 $\lambda_1^{old}, \lambda_2^{old}$ 进行计算。
当 $y_1 \neq y_2$ 时：
$\max(0，\lambda_2^{old}-\lambda_1^{old}) \\ H = \min(C，\lambda_2^{old}-\lambda_1^{old}+C)$
当 $y_1 = y_2$ 时：
$\max(0，\lambda_2^{old}+\lambda_1^{old}-C) \\ H = \min(C，\lambda_2^{old}+\lambda_1^{old})$
通过对 $\lambda_2^{new,unc}$ 裁剪可得：
$\lambda_2^{new}= \begin{cases} L，\quad \lambda_2^{new,unc} < L\\ \lambda_2^{new}，\quad L\leq \lambda_2^{new,unc} \leq H\\ H，\lambda_2^{new,unc} \geq H \end{cases}$
同理可求解 $\lambda_2^{new}$ 。