SVM解释：五、SMO算法

最新推荐文章于 2024-08-03 18:12:49 发布

guoziqing506

最新推荐文章于 2024-08-03 18:12:49 发布

阅读量1.3w

点赞数 22

分类专栏：数据挖掘机器学习机器学习经典算法研究文章标签： SMO SVM

本文链接：https://blog.csdn.net/guoziqing506/article/details/81155323

版权

SMO算法是用于高效求解支持向量机(SVM)的二次规划问题的算法，尤其适用于处理大规模线性数据。该算法通过每次迭代优化两个变量，降低计算复杂度。SMO的基本思想是分治法，每次迭代选择两个变量，优化计算并更新模型。在每次迭代中，SMO算法会选择违反KKT条件的样本，并寻找变化幅度最大的样本作为优化变量，以加速收敛。通过不断迭代，直至所有变量满足KKT条件和约束条件，完成模型训练。

摘要由CSDN通过智能技术生成

SMO算法是John C. Platt在1998年提出的。论文的题目是”Sequential Minimal Optimization：A Fast Algorithm for Training Support Vector Machines”。它很快便成为最快的二次规划优化算法，特别是在针对线性SVM和数据稀疏时性能更优。

当然了，SMO优越性能的背后是其相当复杂的数学推导，所以，我也把这块最难理解的内容放在了整个SVM学习笔记的最后一篇，我将尝试尽可能地把SMO的算法逻辑讲清楚，如有疏忽或错误，欢迎留言讨论。

1. SMO基本原理

我在之前的4篇博客当中，一直有一个遗留问题没有解决，那就是具体如何求解SVM对偶问题，比如我在第3篇博客 SVM解释：三、线性可分的情况中的公式(3)中表示的优化问题，这个问题在加入了松弛变量和惩罚因子后，也就是我在第4篇博客 SVM解释：四、线性不可分的情况中的公式(3)中表示的优化问题，具体如下：

min 1 2 \sum i, j = 1 n α i α j y i y j X T i X j - \sum i = 1 n α i s . t . 0 \leq α i \leq C \sum j = 1 m α i y i = 0 (1)

$\begin{equation} \begin{aligned} \min ~&\frac{1}{2} \sum_{i, j = 1}^{n} \alpha_i \alpha_j y_i y_j X_i^T X_j - \sum_{i = 1}^{n} \alpha_i\\ &s.t. ~0 \leq \alpha_i \leq C\\ &~~~~~~\sum_{j = 1}^{m} \alpha_i y_i = 0 \end{aligned} \end{equation}\tag{1}$

我们观察一下这个优化问题，X和Y（即训练数据）已知，然后在一定的约束范围内求取最优解（即拉格朗日乘子 $\alpha$ ），使目标函数达到最小值。

实际上，求解此类问题的经典算法有很多，但是放在SVM中的话，会在效率上“不尽人意”。因为观察这个目标函数就会发现，其计算的复杂度是依赖于样本数 $n$ 的，如果SVM中训练的数据集比较大，性能就成了问题。出于提高计算效率的目的，SMO算法应运而生。

总结起来一句话：SMO算法是用来高效地求解公式(1)所示的SVM核心优化问题的

我们知道，解决这样一个有多变量（ $n$ 个 $\alpha_i$ ）的优化问题确实比较困难，但是如果能多次迭代，每次选择两个变量优化，同时把其他变量看做是固定的常数，这样“分而治之”的话，问题似乎就容易多了。SMO算法的基本思想正是这样一种“分治法”。

显然，这样做有两个问题需要解决：

每次选择哪两个变量？
每次迭代如何进行优化计算？

这两个问题实际上就是SMO算法的两个组成部分，下面我分别就这两个问题展开阐述。我先说优化计算的过程，最后再谈每次迭代计算是如何选择变量的。

2. 优化计算

2.1 新的优化问题

首先想想为什么要选择两个变量进行优化。假设我选择的是变量 $\alpha_1, \alpha_2$ ，那就把其他的 $n - 2$ 个 $\alpha_i$ 看做是固定的常数，因为有约束条件 $\sum_{j = 1}^{m} \alpha_i y_i = 0$ 存在（公式(1)的第二个约束条件），所以如果我确定了 $\alpha_1$ 迭代后的新值，自然可以通过等式关系确定 $\alpha_2$ 迭代后的值。

回到(1)式所示的SVM核心优化问题，假设选择的两个变量是 $\alpha_1, \alpha_2$ ，则此时的目标函数展开如下：

f (α 1, α 2) = 1 2 K 11 α 21 + 1 2 K 22 α 22 + y 1 y 2 K 12 α 1 α 2 + y 1 α 1 v 1 + y 2 α 2 v 2 - α 1 - α 2 + r (2)

$\begin{equation} f(\alpha_1, \alpha_2) = \frac{1}{2} K_{11} \alpha_1^2 + \frac{1}{2} K_{22} \alpha_2^2 + y_1y_2 K_{12} \alpha_1 \alpha_2 + y_1 \alpha_1 v_1 + y_2 \alpha_2 v_2 - \alpha_1 - \alpha_2 + r \end{equation}\tag{2}$

关于这个式子，有以下3点需要说明：

为表示简洁，记 $K(X_i, X_j) = K_{i,j}$ ，你可能会问，(1)式里面不涉及核函数 $K(,)$ 啊，为什么这里冒出来了？其实没有没核函数的参与，并不影响SMO算法的推导。为了和大多SMO算法相关的文献一致，我将 $X_1$ 与 $X_2$ 的内积直接用核函数的形式表示了，你可以理解为先用核函数映射，再执行加入松弛变量和惩罚因子的线性分类。
$v_1, v_2$ 如下表示。其中 $\alpha_i^*$ 表示 $\alpha_i$ 在上一次迭代中的值。你可以这样理解：每次迭代 $\alpha_1$ 与 $\alpha_2$ 的值都是由上一轮迭代结束时的 $\alpha_i$ 的值计算得到的。

$⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ v 1 = \sum i = 3 n y i α * i K i 1 v 2 = \sum i = 3 n y i α * i K i 2 (3)$ $\begin{equation} \left\{ \begin{aligned} &v_1 = \sum_{i = 3}^{n} y_i\alpha_i^* K_{i1}\\ &v_2 = \sum_{i = 3}^{n} y_i\alpha_i^* K_{i2} \end{aligned} \right. \end{equation}\tag{3}$
$r$ 表示常数项的组合，因为与后面的推导无关，我不写出来了。