硬间隔支持向量机(上)

编码雪人

已于 2024-09-22 23:58:02 修改

阅读量745

点赞数 13

分类专栏：机器学习文章标签：支持向量机算法机器学习

于 2024-07-09 18:34:06 首次发布

本文链接：https://blog.csdn.net/EncodingLee/article/details/140072419

版权

机器学习专栏收录该内容

12 篇文章

订阅专栏

支持向量机

1 立体几何
2 最优化问题
3 Gram矩阵
4 模型构建
- 4.1 分类问题提出
- 4.2 分类问题分析
参考文献

1 立体几何

1.1 向量的定义与几何表示

在数学中，我们把既有大小又有方向的量称为向量(矢量)，而把只有大小没有方向的量称为数量(标量)。由于数量可以用实数表示，而实数与数轴上的点一一对应，所以数量可以用数轴上的点表示，不同点表示不同数量。有向线段 $\vec{AB}$ 的长度可以表示向量的大小，有向线段的方向可以表示向量的方向，因此向量可以用有向线段来直观表示。一般向量的大小称为向量的模，记作 $|\vec{AB}|$ 。长度为0的向量称为零向量，长度为1的向量称为单位向量。

1.2 向量坐标与点坐标之间的关系

在平面直角坐标系中，设与x轴、y轴方向相同的两个单位向量分别为 $\vec{i}$ ， $\vec{j}$ ，则对平面内任意一个向量，由平面向量基本定理可知，有且只有一对实数 $x$ ， $y$ ，使得
$\vec{a}=x\vec{i}+y\vec{j}$
这样，平面内的任意向量 $\overrightarrow{a}$ 都可以用x，y唯一确定，我们把有序数对称为向量 $\vec{a}$ 的坐标，记为
$\vec{a}=（x，y）$
设 $\overrightarrow{OA}=x\vec{i}+y\vec{j}$ ，其中O表示平面直角坐标系中的坐标原点，则向量 $\overrightarrow{OA}$ 的坐标(x，y)就是终点A的坐标，反之，终点A的坐标就是向量 $\overrightarrow{OA}$ 的坐标。这样就建立了向量坐标与点坐标之间的关系。

1.3 向量的模与方向

假设向量 $\vec{a}^T=(x，y)$ ，则向量 $\vec{a}^T$ 的模为:
$||\vec{a}^T||=\sqrt{x^2+y^2}$
$\vec{a}^T$ 的方向为：
$\vec{z}^T=(\frac{x}{||\vec{a}||}，\frac{y}{||\vec{a}||})$

1.4 超平面定义

在几何数学中，超平面是指n维空间中一个n−1维的子空间。通常用如下方程表达：
$w_1x_1 + w_2x_2 + \cdots + w_nx_n + b = \vec{w}^T\vec{x} + b = 0$
其中， $\vec{w}^T=(w_1，w_2，\cdots，w_n)$ 表示超平面的法向量， $b$ 表示超平面偏移量， $\vec{x}^T=(x_1，x_2，\cdots，x_n)$ 表示空间中的数据点。

1.5 点与超平面的关系

点与超平面的关系有三种：点在超平面上，点在超平面正侧和点在超平面负侧。点与超平面的关系可以通过计算将点带入平面方程来确定，该值的符号可以表示点相对超平面的位置。

点在超平面上：如果 $\vec{w}^T\vec{x} + b = 0$ ，则点 $\vec{x}$ 位于超平面上。
点在超平面正侧：如果 $\vec{w}^T\vec{x} + b > 0$ ，则点 $\vec{x}$ 位于超平面法向量 $\vec{w}^T$ 指向的一侧。
点在超平面负侧：如果 $\vec{w}^T\vec{x} + b < 0$ ，则点 $\vec{x}$ 位于超平面法向量 $\vec{w}^T$ 指向的反方向一侧。

例 1.1 在平面直角坐标系中，假定一个 $\vec{w}^T=(0.625，1)$ 和 $b = - 8.25$ 的超平面，即 $0.625 x + y - 8.25 = 0$ 该超平面如图 1-1 所示。

图1-1 超平面分离数据

将点 $(2 ， 7)$ 代入直线方程，可得 $0.625 \times 2 + 7 - 8.25 = 0$ ，因此点在直线上。
将点 $(7 ， 9)$ 代入直线方程，可得 $0.625 \times 7 + 9 - 8.25 = 5.125 > 0$ ，因此点在直线正侧。
将点 $(3 ， 3)$ 代入直线方程，可得 $0.625 \times 3 + 3 - 8.25 = -3.375 < 0$ ，因此点在直线负侧。

2 最优化问题

2.1 凸集定义

如果 $\forall{\pmb{x}_1，\pmb{x}_2} \in A \subset {\mathbb{R}^n}$ ，并对任意的 $\theta \in [0,1]$ ，都有
$\theta{\pmb{x}_1} + (1-\theta)\pmb{x}_2 \in A$
则称集合 $A$ 是凸集。

2.2 凸函数定义

设一个 $n$ 元实函数 $f(\pmb{x})$ ， $\pmb{x}\in{A}\subset{\mathbb{R}^n}$ ， $A$ 是非空凸集，如果 $\forall{\pmb{x}_1，\pmb{x}_2} \in A$ ，并对任意的 $\theta \in [0,1]$ ，有
$f(\theta{\pmb{x}_1}+(1-\theta{\pmb{x}_2})) \leq \theta{f(\pmb{x}_1)} + (1-\theta){f(\pmb{x}_2)}$
则称函数 $f (x)$ 是凸函数。若上式严格不等，则称函数 $f (x)$ 是严格凸函数。

2.3 无约束优化问题

求解最优化问题的第一个一般性的分析方法是Fermat提出的，他给出了无约束优化问题的极值点应满足的必要条件。
定理 2.1 (Fermat定理) 设 $f(\pmb{x})$ 为一个 $n$ 元函数， $\pmb{x}=(x_1，x_2，\cdots，x_n)^T \in A \subseteq{\mathbb{R}^n}$ ，如果 $\pmb{x}^*$ 是函数 $f$ 的一个极值点，且函数在 $\pmb{x}^*$ 处连续可微，则在 $\pmb{x}^*$ 上有
$f_{\pmb{x}}^{'}(\pmb{x}^*) = 0 \tag{1-1}$
分析：该定理证明可以使用反证法，首先假设 $\pmb{x}^*$ 是局部极小值，但梯度 $f_{\pmb{x}}^{'}(\pmb{x}^*) \neq 0$ ，如果能找到一个方向 $\pmb{d}$ ，使得在这个方向上，函数值是下降。很显然，函数在负梯度方向是下降的，那么我们就证明了 $\pmb{x}^*$ 不是局部极小值。

证明：
        假定 $f_{\pmb{x}}^{'}(\pmb{x}^*) \neq 0$ ，则 $\exists{\pmb{d}} \in \R^n$ ，使得 $\pmb{d}^Tf_{\pmb{x}}^{'}(\pmb{x}^*) < 0$ ，例如， $\pmb{d} = -f_{\pmb{x}}^{'}(\pmb{x}^*)$ 。由 $f_{\pmb{x}}^{'}(\pmb{x})$ 的连续性可知， $\exists{\delta > 0}$ ，使得
$\pmb{d}^Tf_{\pmb{x}}^{'}(\pmb{x^* + \alpha{\pmb{d}}}) < 0，\alpha \in (0，\delta]$
由中值定理可知，对 $\forall \alpha_1 \in (0，\delta]$ ， $\exists \alpha \in (0，\alpha_1)$ ，使
$f(\pmb{x}^* + \alpha_1\pmb{d}) = f(x^*) + \alpha_1\pmb{d}^Tf_{\pmb{x}}^{'}(\pmb{x^* + \alpha{\pmb{d}}})$
因此， $f(\pmb{x}^* + \alpha_1\pmb{d}) < f(\pmb{x}^*)$ ，即 $\pmb{x}^*$ 不是 $f(\pmb{x})$ 的局部极小值点，与原命题矛盾。
        这个定理给出了局部最优解的必要条件，运用这个定理须求解 $n$ 个联立的方程：
$\frac{\partial{f}}{\partial{x_i}} = 0，i=1,2,\dots,n$
要求得全局最优解，应将所得的各极小值或极大值与函数奇异点及边界点的值进行比较，取其最小或最大值对应的 $\pmb{x}$ 作为全局最优解。
        定理 2.2 (Lagrange中值定理)  若函数 $f$ 满足如下条件：
        (i) $f$ 在闭区间 $[a ， b]$ 上连续；
        (ii) $f$ 在开区间 $(a ， b)$ 上可导，
则在 $(a ， b)$ 上至少存在一点 $\xi$ ，使得
$f^{'}(\xi) = \frac{f(b) - f(a)}{b - a}$

2.4 等式约束优化问题

        Lagrange 给出了在等式约束下求解函数极值点的分析方法原理，它利用数学上的概念与技巧，将等式约束下的条件极值问题转化为无约束的极值问题。条件极值问题可以描述为：
$\begin{cases} f(\pmb{x}) \\ s.t.\quad h_k(\pmb{x}) = 0, \quad k=1,2,\dots,l \end{cases}$
上述条件极值问题可以归结为求下面的辅助函数的极值：
$L(\pmb{x}, \lambda_0, \pmb{\lambda}) = \lambda_0f(\pmb{x}) + \sum_{k=1}^l{\lambda_k}h_k(\pmb{x}) \tag{1-2}$
式中， $L(\cdot)$ 称为 Lagrange 函数， $\lambda_i(i=0,1,\cdots,l)$ 称为 Lagrange 乘子。
        定理 2.3 (Lagrange定理)  对于上述优化问题 (1-2)，令 $\pmb{x} = (x_1,x_2,\cdots,x_n)^T \in \mathbb{R}^n$ ，设函数 $f(\pmb{x})$ ， $h_k(\pmb{x})（k=1,\cdots,l）$ 在点 $\pmb{x}^*$ 处可微。若 $\pmb{x}^*$ 是 $f(\pmb{x})$ 的一个条件极值点，则存在不全为零的 Lagrange 乘子 $\lambda_0$ 和 $\pmb{\lambda^*}=(\lambda_1^*，\lambda_2^*，\cdots，\lambda_l^*)$ ，使得下列条件成立：
$L_{x_i}^{'}(\pmb{x}^*, \lambda_0^*, \pmb{\lambda}^*) = 0，i=1，2，\cdots，n \tag{1-3}$
$L_{\lambda_i}^{'}(\pmb{x}^*, \lambda_0^*, \pmb{\lambda}^*) = 0，i=1，2，\cdots，l \tag{1-4}$
为了使 $\lambda_0 \neq 0$ ，充要条件是 $l$ 个矢量
$\frac{\partial{h_1}}{\pmb{x}}，\frac{\partial{h_2}}{\pmb{x}}，\cdots，\frac{\partial{h_l}}{\pmb{x}}$
在点 $f(\pmb{x})$ 上是线性无关的。
        由式(1-3)可以产生 $n$ 个新方程，式(1-4)可以产生 $l$ 个方程，显然运用上述定理，需要求解含 $n + l + 1$ 个未知数的方程。
        在 $\lambda_0 \neq 0$ 下，不妨取 $\lambda_0 = 1$ ，这相当于其余的Lagrange乘子都要乘以一个银子，这不影响问题的解，在这种情况下，问题变为求解下面 $n + l$ 个方程的方程组。
        例 2.2 假设有以下约束优化问题：
$\min_{x, y}{f(x, y) = x^2 + y^2} \\ s.t.\quad g(x, y) = x + y -1 = 0$

图1-2 等式约束优化问题的几何表示

        从图1-2可以看出，目标函数和条件等式约束在极值点处梯度共线，即 $\nabla{f(x)} = \lambda{\nabla{g(x)}}$ 。
解：
        目标函数梯度为：
$\nabla{f(x, y)} = (\frac{\partial{f}}{\partial{x}}，\frac{\partial{f}}{\partial{y}}) = (2x，2y)$
        约束条件梯度为：
$\nabla{g(x, y)} = (\frac{\partial{g}}{\partial{x}}，\frac{\partial{g}}{\partial{y}}) = (1，1)$
        由于目标函数梯度与约束条件梯度在极值点处共线，则
$\begin{cases} 2x = \lambda \\ 2y = \lambda \\ x + y -1 = 0 \\ \end{cases}$
        通过代入法可得，该约束函数的极值点在(0.5，0.5)。

2.5 不等式约束优化问题

从下面的分离定理，我们可以得到Farkas引理；再由Farkas引理，我们便可以得到约束优化问题的一阶最优性条件。
引理 2.1 (分离定理) 设 $C$ 是 $m$ 个 $n$ 维向量 $a_1，\cdots，a_m$ 生成的集合：
$\{v|v=\sum_{i=1}^m{\lambda_ia_i，\lambda_i \geq 0，i=1，\cdots，m}\}$
如果 $n$ 维向量 $\notin C$ ，则存在一个法向量 $d$ 的超平面 $\Pi$ 分离 $g$ 与 $C$ ，使得
$g^Td < 0 \\ a_i^Td \geq 0，i=1，\cdots，m.$

引理 2.2 ( Farkas引理) 给任意一个 $n$ 维向量 $a_1，\cdots，a_m$ 和 $g$ ，则集合
$\mathcal{D} = \{d|g^Td < 0，a_i^Td \geq 0，i=1，\cdots，m\}$
为空集的充分必要条件是，存在 $\lambda_i \geq 0(i=1，\cdots，m)$ ，使得
$\sum_{i=1}^m \lambda_ia_i$
例 2.3 如图1-3所示，考虑下述优化问题：
$\min_{x_1, x_2}{f(x_1, x_2) = x_1^2 + x_2^2} \\ s.t. \begin{cases} x_1^2 + x_2^2 \leq 5 \\ x_1 + 2x_2 \leq 4 \\ x_1，x_2 \geq 0 \end{cases}$

图1-3 不等式约束优化问题的几何表示

例 2.4 如图1-4所示，考虑下述优化问题：
$\min_{x_1, x_2}{f(x_1, x_2) = x_2} \\ s.t. \begin{cases} -x_1 - x_2^2 \geq 0 \\ x_1 = 0 \end{cases}$
该问题的最优解为 $x^* = (0, 0)^T$ 。另外，目标函数和约束函数梯度为
$g^* = \begin{bmatrix} 0 \\ 1 \end{bmatrix}， a_1^* = \begin{bmatrix} -1 \\ 0 \end{bmatrix}， a_2^* = \begin{bmatrix} 1 \\ 0 \end{bmatrix}$
显然，在 $x^* = (0, 0)^T$ ，引理1.2不成立，具体如下图：

图1-4 不等式约束优化问题的几何表示

        从图1-4可以看出，在最优解处，若要满足引理1.2，约束条件还需满足一些条件。我们称这些条件为约束规范条件或约束限制条件。
        约束最优化问题最优性条件的核心就是下面要介绍的一阶必要条件，它是由Farkas引理的推论得到。
        设一般约束优化问题为：
$\min{f(\pmb{x})} \tag{1-5} \\ s.t. \quad c_i(x)=0，i \in \varepsilon \\ \quad\quad\quad c_i(x) \leq 0，i \in I$
其中 $\in \mathbb{R}^n$ ， $\in \mathbb{R}$ 为目标函数， $c_i(x) \in \mathbb{R}$ 为约束函数。
        定理 2.4 (KKT)  若 $x^*$ 为问题 (1-5) 的局部解，且在 $x^*$ 处正在性假设成立，则存在Lagrange乘子 $\lambda^* \in \mathbb{R}^m$ ，使得 $x^*$ ， $\lambda^*$ 满足
$\nabla_x{L(x^*，\lambda^*)} = 0 \\ \lambda_i^* \geq 0 \\ \lambda_i^*c_i(x^*) = 0$
其中
$\lambda) = f(x) - \sum_{i=1}^m\lambda_ic_i(x)$
为Lagrange函数。
        注释
        如果Lagrange乘子为零，则称该约束为无效约束，这是因为该约束并未对问题产生影响。目标函数的最小值点可能在可行区域内也可能在可行区域边界上。对于前一种情况，优化问题可以等价为无约束问题。如果最小值位于可行区域内部，那么当远离最小值运动时，目标函数势必会增加。因此，这一点也称为目标函数的稳定点。在这种情况下，约束是多余的，不会影响原问题的解。当目标函数的最优解位于可行区域外，约束优化问题的最优解位于可行区域边界上。这种情况下，将会有一个或多个约束是有效约束，其他约束为无效约束。

3 Gram矩阵

        Gram矩阵（Gram matrix）是一个数学概念，广泛应用于线性代数、最优化、统计学、机器学习等领域。它是由向量内积构成的矩阵，能够反映这些向量之间的相似性或相关性。
        定义 3.1 Gram矩阵定义
        给定一组向量 $\vec{x}_1，\vec{x}_2，\cdots，\vec{x}_m \in \mathbb{R}^n$ ，它们组成矩阵 $X$
$[\vec{x}_1，\vec{x}_2，\cdots，\vec{x}_m]$
        Gram矩阵是由这些向量之间的内积构成的堆成矩阵，定义如下：

$X^TX= \begin{bmatrix} \vec{x_1}^T\vec{x_1} & \vec{x_1}^T\vec{x_2} & \cdots & \vec{x_1}^T\vec{x_m} \\ \vec{x_2}^T\vec{x_1} & \vec{x_2}^T\vec{x_2} & \cdots & \vec{x_2}^T\vec{x_m} \\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ \vec{x_m}^T\vec{x_m} & \vec{x_m}^T\vec{x_2} & \cdots & \vec{x_m}^T\vec{x_m} \end{bmatrix}$

我们称矩阵 $G$ 为Gram矩阵。
        性质 1.1 Gram对称性
$G^T = (X^TX)^T = X^TX$
        性质 1.2 Gram半正定性
        设 $\vec{a} \in \mathbb{R}^n$ ，则
$\vec{a}^TX^TX\vec{a} = (X\vec{a})^TX\vec{a} = ||\vec{v}|| \geq 0$
其中，
$\vec{v} = X\vec{a} = \begin{bmatrix} \vec{x}_1 & \vec{x}_2 & \cdots & \vec{x}_m \end{bmatrix} \begin{bmatrix} a_1 \\ a_2 \\ \vdots \\ a_m \end{bmatrix}= \begin{bmatrix} a_1 & a_2 & \cdots & a_m \end{bmatrix} \begin{bmatrix} \vec{x}_1 \\ \vec{x}_2 \\ \vdots \\ \vec{x}_m \end{bmatrix}$

4 模型构建

4.1 分类问题提出

在为完全确诊某些疾病的检查中，有些检查可能是十分昂贵的，或者是创伤性的。因此，利用一些有关的容易获得的临床指标进行辅助性的推断是一项有意义的工作。美国Cleveland Heart Disease Database提供的数据(Heart Disease数据集下载地址)可以用作对心脏病进行辅助性诊断的基础。该数据包括了303个病人信息。事实上，该数据不仅记录了这些病人的血压(低压)、胆固醇等13项与心脏病有关的指标，而且还记录了这些病人是否患有心脏病的确证结论，这里的确诊并非完全根据13项指标做出的，而是利用其他手段。现在的问题是如何根据这一数据对新来的病人只通过检测这13项指标，就推断该病人是否患有心脏病。;很显然，推断病人是否患有心脏病是分类问题，也称模式识别问题，在统计学习中，称为判别分析问题。
例 2.1.1 假定是否患有心脏病与病人血压和胆固醇水平密切相关，表2-1列出了10个病人的临床数据，其中x1表示病人血压水平，x2表示病人胆固醇水平，y表示病人所属类别标记：y=1表示病人有心脏病；y=-1表示病人无心脏病。

**表 2-1 心脏病诊断数据集**
病人编号	血压 x1	胆固醇水平 x2	是否有心脏病 y
1	73	150	-1
2	85	165	-1
...	...	...	...
10	110	190	1

现在的问题是，对新来的病人，已测得他的血压x1和胆固醇水平x2，试推断他是否患有心脏病，即y=1或y=-1？

4.2 分类问题分析

要解决上一节的问题，需将表2-1的数据绘制在平面直角坐标系中，用直角坐标系的点来表示每个病人，点的位置由病人的两个指标来确定，病人是否患有心脏病由点的形状来确定，当y=1时，用"+"形点；当y=-1时，用"o"形点，具体如图2-1所示。

图2-1 心脏病辅助诊断数据坐标表示

针对上述问题，一个很自然的思路是建立 $\vec{x}$ 与y的关系。通过分析问题的值域，可以发现符号函数的值域与问题的值域相符。符号函数的表达式如下：
$\begin{cases} 1，&t>0 \\ 0，&t=0 \\ -1，&t<0 \\ \end{cases}$
显然，仅凭符号函数无法完全建立 $\vec{x}$ 与y的关系，因此还需要引入另外一种关系来共同构建 $\vec{x}$ 与y的关系。通过分析符号函数的定义域可以发现，若再引入点与超平面的关系就可以完全解决该类问题，具体表达式如下：
$y=sgn(\vec{w}^T\vec{x}+b)= \begin{cases} 1，& \vec{w}^T\vec{x}+b > 0 \\ 0，& \vec{w}^T\vec{x}+b = 0 \\ -1，& \vec{w}^T\vec{x}+b < 0 \\ \end{cases}$

        上面，我们讨论了如何找到一个可以对线性可分数据进行分类的超平面。在实际应用上，对于给定的训练数据，往往存在多个可以用来分类的超平面。因此，我们需要一个标准来选择这些超平面中最优的一个超平面。
        由于最近点与超平面的距离和超平面是一一对应的，即一个超平面只有一个最近点，所以我们可以通过最近点到超平面的距离来给超平面排序。给定一个训练集 $\mathcal{D}=\{(x_i，y_i)|x_i \in \mathcal{R^n}， y_i \in \{-1，1\}\}$ ，计算每个训练样本到超平面的距离 $\beta_i$ ，定义 $B$ 为这些距离中的最小值，即：
$B=\min_{i=1, \cdots,m} \beta_i \tag{1-1}$
        假设有 $k$ 个不同的超平面，我们希望选择一个最大的 $B$ ，即找到一个使得最小距离最大的超平面，具体表达式如下：
$\max_{j=1,\cdots,k}\min_{i=1, \cdots,m} \beta_i \tag{1-2}$
        使用方程的返回值来定义点到超平面的距离有其局限性，特别是在返回值为负数的情况下。当超平面方程的返回值为负数时，选择最小值来表示最近点到划分超平面的距离会出现误差。例如，对于 $\beta=-5$ 和 $\beta=-1$ 的两个点，选择最小值 $\beta=-5$ 其实并不合适，因为 $\beta=-1$ 更接近超平面。为了修正这个问题，我们考虑取 $\beta$ 的绝对值，则表达式可表述为：
$\max_{j=1,\cdots,k}\min_{i=1, \cdots,m} |\beta_i|$
        同样 $B$ 的选择也有其局限性，具体情况如下图所示：


图 a 划分超平面1	图 b 划分超平面2

        通过上图可以看出，这两个超平面的 $B$ 值都是 $2$ ，现在的问题是我们不知道哪个超平面的划分结果是正确的。遇到这种情况，我们需要调整公式来选择最优的超平面。在训练数据 $\vec{x_i}=(x_i，y_i)$ 中，我们没有使用 $y_i$ ，如果我们用 $\beta_i$ 乘以 $y_i$ ，则表达式如下：
$\hat{\gamma_i} = y_i(\vec{w}^T\vec{x_i} + b) \tag{1-3}$
其中， $\hat{\gamma_i}$ 为函数间隔。
注意：对于线性可分训练集来说，函数间隔的值都是正值，这意味着点 $\vec{x_i}$ 被正确分类。
        看起来这次我们找到了一个好的方法来比较两个超平面。然而，函数间隔存在一个很严重的问题：缺少比率不变性。例如，给定一个法向量 $w_1=(2，1)$ 和偏置 $b_1=5$ ，如果我们用10乘以它们，则 $w_1=(2，1)$ 和偏置 $b_1=5$ 。实际上这两个超平面是同一个超平面，因为它们的单位向量相同(超平面与向量 $w_1$ 正交，不用关心它的长度，重要的是它的方法)。
        解决上述问题，我们只需要做一个小小的调整，用单位向量代替向量 $\vec{w}$ ，同时用 $||\vec{w}||$ 保持比率不变性，则表达式可写为：
$\gamma_i = y_i(\frac{\vec{w}^T}{||\vec{w}||}\vec{x_i} + \frac{b}{||\vec{w}||}) \tag{1-4}$
$\gamma_i$ 的优点在于它能给我们一个相同的数，而不用考虑向量 $\vec{w}$ 的取值，我们称 $\gamma_i$ 为示例的几何间隔。