《机器学习》周志华-CH6（支持向量机）

最新推荐文章于 2024-10-07 16:58:22 发布

Next---YOLO

最新推荐文章于 2024-10-07 16:58:22 发布

阅读量953

点赞数 32

分类专栏：西瓜书文章标签：机器学习支持向量机人工智能

本文链接：https://blog.csdn.net/m0_51366201/article/details/141785621

版权

西瓜书专栏收录该内容

10 篇文章 0 订阅

订阅专栏

6.1间隔与支持向量

给定训练样本 $D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\},y_i\in\{-1,+1\}$ 分类学习最基本的想法是基于训练集 $D$ 在样本空间找到一个划分超平面，将不同类别样本分析。

在这里插入图片描述

应该找位于两类训练样本“正空间”的划分超平面，如红色的，泛化能力最强，鲁棒性最强。

划分超平面可通过如下线性方程描述：
$\begin{equation} w^Tx+b=0 \tag{6.1} \end{equation}$

$w=(w_1,;w_2;...w_d)$ 为法向量， $b$ 为维向量，决定超平面与原点之间距离

划分超平面由法向量 $w$ 和位移 $b$ 确定，记为 $(w, b)$

任意点 $x$ 到超平面 $(w, b)$ 的距离可写为：
$\begin{equation} r=\frac{|w^{T}x+b|}{||x||} \tag{6.2} \end{equation}$
假设超平面 $(w, b)$ 可将训练样本正确分类
在这里插入图片描述

欲找到具有“最大间隔”（maximum margin）的划分超平面，也就是要找满足约束的 $w$ 和 $b$ ，使得 $\gamma$ 最大，即：
在这里插入图片描述

6.2对偶问题

求解（6.6）来得到最大划分对应模型
在这里插入图片描述

解出 $\alpha$ 后，求出 $w$ 与 $b$ 即可得模型

$\begin{equation} f(x)=w^T+b=\sum_{i=1}^m\alpha_{i}y_{i}x_{i}^{T}x+b \tag{6.12} \end{equation}$
在这里插入图片描述

对任意训练样本 $x_i,y_i)$ 总有 $\alpha_i=0$ 或 $y_if(x_i)=1$

若 $\alpha_i=0$ ，则样本不会在（6.12）中出现，不会对 $f (x)$ 有影响

若 $\alpha_i>0$ ,则必有 $y_if(x_i)=1$ ,对应样本点位于最大间隔边界上，是支持向量。

支持向量机性质：

训练完成后，大部分训练样本都不需要保留，最终模型仅与支持向量有关。

如何求解（6.11）？

二次规划算法正比于训练样本数，会造成较大开销。

SMO（Sequential Minimal Optimization）是高效算法，著名代表。

SMO基本思路：

先固定 $\alpha_i$ 之外的所有参数，然后求 $\alpha_i$ 上的极值。

在这里插入图片描述

参数初始化后，SMO不断执行如下两个步骤至收敛：

选取一对需更新的变量 $\alpha_i$ 和 $\alpha_j$ ；
固定 $\alpha_i$ 和 $\alpha_j$ 以外的参数，求解（6.11）获得更新后的 $\alpha_i$ 和 $\alpha_j$

KKT条件违背的程度越大，则变量更新后可能导致的目标函数值减幅越大

使选取的两变量所对应样本之间的间隔最大

SMO高效因为在固定其他参数后，优化两个参数的过程能做到非常高效

仅考虑 $\alpha_i$ 和 $\alpha_j$ 时，（6.11）约束可写为：

在这里插入图片描述

6.3核函数

在这里插入图片描述

可将样本从原始空间映射到一个更高维的特征空间

如果原始空间是有限维，属性数有限，一定存在一个高维特征空间使样本可分：
在这里插入图片描述

（6.24）显示模型最优解可通过训练样本的核函数展开，亦称“支持向量展开式”

若已知合适映射 $\phi(\cdot)$ 的具体形式，则可写成核函数 $\kappa(\cdot,\cdot)$

定理6.1（核函数）：

令 $\chi$ 为输入空间， $\kappa(\cdot,\cdot)$ 是定义在 $\chi\times\chi$ 的对称函数，则 $\kappa$ 是核函数当且仅当对于任意数据 $D=\{x_,,x_2,...,x_m\}$ ,“核矩阵”(kernel matrix) $K$ 总是半正定的；

只要一个对称函数所对应的矩阵半正定，它总能作为核函数使用

对于一个半正定核矩阵，总能找到一个与之对应的映射 $\phi$

任意一个核函数都隐式地定义了一个称为“再生核希尔伯特空间”（Reproducing Kernel Hilbert Space，简称RKHS）的特征空间

我们希望样本在特征空间内线性可分，因此特征空间的好坏对支持向量机的性能至关重要。

在这里插入图片描述

也可通过函数组合得到：

若 $\kappa_1$ 和 $\kappa_2$ 为核函数，则对于任意正数 $\gamma_1、\gamma_2$ ，其线性组合
$\begin{equation} \gamma_1\kappa_1+\gamma_2\kappa_2 \quad\quad\quad也是核函数 \tag{6.25} \end{equation}$
若 $\kappa_1$ 和 $\kappa_2$ 为核函数，则核函数的直积