机器学习之支持向量机(SVM)

最新推荐文章于 2024-06-11 17:16:57 发布

董蝈蝈

最新推荐文章于 2024-06-11 17:16:57 发布

阅读量215

点赞数 2

分类专栏：机器学习文章标签：机器学习支持向量机 python 算法

本文链接：https://blog.csdn.net/weixin_41566471/article/details/107425410

版权

机器学习专栏收录该内容

17 篇文章 3 订阅

订阅专栏

支持向量机是一种二分类模型。有简至繁：

线性可分支持向量机(linear support vector machine in linearly separate case),当训练数据线性可分时，可以通过硬间隔最大化，学习一个线性分类器。
线性支持向量机(linear support vector machine)，当训练数据近似线性可分时，通过软间隔最大化，学习线性分类器。
非线性支持向量机(non-linear support vector machine)，当训练数据不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。

本章节参考李航的《统计学习方法》

1. 线性可分支持向量机与硬间隔最大化

1.1 间隔最大化

假设给定一个特征空间上的训练数据集

$\{(x_1, y_1), (x_2, y_2), ..., (x_N, y_N) \} \tag1$

其中 $x_i$ 是第 $i$ 个样本的特征向量， $y_i$ 是第 $i$ 个样本的标签， $y_i \in \{+1, -1 \}$ .

学习目标是在特征空间中找到一个分离超平面，能将实例分到不同的类。分离超平面对应的方程 $w * x + b = 0$ ,分离超平面将特征空间划分为两部分，一部分为正类，另一部分为负类。

一般来说，一个点距离分离超平面的远近可以表示分类预测的确信程度。 $∣ w * x + b ∣$ 能够相对表示点 $x$ 距离超平面的距离，而 $w * x + b$ 的符号与类标记 $y$ 的符号是否一致能够表示分类是否正确。所以可以用 $y (w * x + b)$ 表示函数间隔（functional margin）。

定义超平面关于样本点 $x_i, y_i)$ 的函数间隔为

$\hat \gamma_i = y_i(w*x_i +b) \tag{2}$

所有样本中的最小间隔为

$\hat \gamma = \min_{i=1,..,N} \hat \gamma_i \tag{3}$

上面的表示中，成比例改变 $w, b$ 不会改变超平面，但是会改变函数间隔，所以可以做一些规范化操作

也就是几何间隔：

$\gamma_i = y_i(\frac {w} {||w||} * x + \frac{b} {||w||}) \tag{4}$

则最小几何间隔

$\gamma = \min_{i=1,...,N} \gamma_i \tag{5}$

下面考虑如何求得一个几何间隔最大的分离超平面，这个问题可以表示为下面的约束最优化问题：

$\begin{aligned} & \max_{w,b} \gamma \\ & st... y_i(\frac {w} {||w||} * x_i + \frac {b} {||w||}) \ge \gamma, i=1, 2, ...,N \tag{6} \end{aligned}$

也可以写为：

$\begin{aligned} & \max_{w,b} \frac {\hat \gamma} {||w||} \\ & st... y_i(w * x_i + b) \ge \hat \gamma, i=1, 2, ...,N \tag{7} \end{aligned}$

其中 $\hat \gamma$ 的取值并不影响最优化问题的解, 去 $\hat \gamma=1$ ,又最大化 $\frac {\hat \gamma} {||w||}$ 等价于最小化 $\frac {1}{2} {||w||^2}$ 。于是就可以得到线性可分支持向量机学习的最优化问题：

$\begin{aligned} & \min_{w,b} \frac {1}{2} {||w||^2} \\ & st... y_i(w * x_i + b) \ge 1, i=1, 2, ...,N. \tag{8} \end{aligned}$

1.2 学习的对偶算法

首先构建拉格朗日函数，引进拉格朗日乘子 $\alpha_i \ge 0, i=1, 2, ..., N$ ,定义拉格朗日函数：

$\alpha) = \frac {1}{2} {||w||^2} - \sum_{i=1}^N \alpha_i y_i (w*x_i + b) + \sum_{i=1}^N \alpha_i \tag{9}$

其中， $\alpha = (\alpha_1, \alpha_2, ..., \alpha_N)^T$ 为拉格朗日乘子向量。

根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题：

$\max_\alpha \min_{w,b} L(w, b, \alpha) \tag{10}$

(1)求 $\min_{w,b} L(w, b, \alpha)$

将拉格朗日函数 $L(w,b,\alpha)$ 分别对 $w, b$ 求偏导并令其等于0.

$\frac {\partial L} {\partial w} = w - \sum_{i=1}^N \alpha_i y_i x_i = 0$

$\frac {\partial L} {\partial b} = - \sum_{i=1}^N \alpha_i y_i = 0$

得到：

$\sum_{i=1}^N \alpha_i y_i x_i \tag{11}$

$\sum_{i=1}^N \alpha_i y_i = 0 \tag{12}$

将上式结果带回拉格朗日函数得到：

$\begin{aligned} L(w, b, \alpha) &= \frac {1} {2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i * x_j) - \sum_{i=1}^N \alpha_i y_i ((\sum_{j=1}^N \alpha_j y_j x_j) * x_i + b) + \sum_{i=1}^N \alpha_i \\ & = - \frac {1} {2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i * x_j) + \sum_{i=1}^N \alpha_i \end{aligned}$

即：

$\min_{w,b} L(w,b,\alpha) = - \frac {1} {2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i * x_j) + \sum_{i=1}^N \alpha_i \tag{13}$

(2)求 $min_{w, b}L(w,b,\alpha)$ 对 $\alpha$ 的极大，即是对偶问题：

$\begin{aligned} & \max_{\alpha} - \frac {1} {2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i * x_j) + \sum_{i=1}^N \alpha_i \\ & st... \sum_{i=1}^N \alpha_i y_i = 0 ; \alpha_i \ge 0, i=1, 2, ...,N \tag{14} \end{aligned}$

将求极大转化为求极小可以得到：

$\begin{aligned} & \min_{\alpha} \frac {1} {2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i * x_j) + \sum_{i=1}^N \alpha_i \\ & st... \sum_{i=1}^N \alpha_i y_i = 0 ; \alpha_i \ge 0, i=1, 2, ...,N \tag{15} \end{aligned}$

KKT条件

Lagrangian: Inequality Constraint
$\min f(x) \\ st... h(x) \le 0$
转化为：
$\min f(x) + \lambda h(x)$
设有条件的最优解正好满足限制条件 $\le 0$ ⇒ $\lambda = 0, h(x) \le 0$
设有条件的最优解不满足限制条件 $\le 0$ ⇒ $\lambda > 0, h(x) = 0$
以上两个条件合并就可以得到： $\lambda h(x) = 0$
所以：

$\min f(x) \\ st... h(x) \le 0$
转化为：
$\min f(x) + \lambda h(x) \\ st... \lambda h(x) = 0; h(x) \le 0$

KKT条件
如果我们有等式的条件也有不等式的条件
$\begin{aligned} \min: & f(x) \\ st... :& g_i(x) = 0 \\ & h_i(x) \le 0, i= 1,2, ..., N \end{aligned}$
转化为
$\begin{aligned} \min: & f(x) + \sum_{i=1}^N \lambda_i g_i(x) + \sum_{j=1}^N \mu_j h_j(x) \\ st... :& \lambda_i, \mu_j > 0 \\ & \mu_j h_j(x) = 0,\\ & h_i(x) \le 0, i= 1,2, ..., N \end{aligned}$

下面就用KKT条件进行求解

首先线性可分支持向量机学习的最优化问题：

$\begin{aligned} & \min_{w,b} ：\frac {1}{2} {||w||^2} \\ & st...： y_i(w * x_i + b) \ge 1, i=1, 2, ...,N. \end{aligned}$

根据KKT条件可以转化为：

$\begin{aligned} \min_{w,b}: & \frac {1}{2} {||w||^2} + \sum_{i=1}^N \lambda_i [1 - y_i (w * x_i + b)] \\ st...: & \lambda_i \ge 0, \\ & \lambda_i [1 - y_i(w * x_i + b)] = 0, \\ & 1 - y_i(w * x_i + b) \le 0, i=1, 2, ...,N. \end{aligned}$

设 $\alpha^* = (\alpha_1^*, \alpha_2^*,...,\alpha_l^*)$ 是对偶最优化问题的解。

可以得到

$\begin{aligned} &\frac {\partial L}{\partial w} = w - \sum_{i=1}^N \alpha_i^* y_i x_i = 0 \\ & \frac {\partial L} {\partial b} = - \sum_{i=1}^N \alpha_i^* y_i = 0 \\ & \alpha_i [1 - y_i(w * x_i + b)] = 0, i=1, 2, ..., N \\ & 1 - y_i(w * x_i + b) \le 0, i=1, 2, ...,N \\ & \lambda_i \ge 0, i=1,2,..,N \end{aligned}$

由此可以得到：

$w^* = \sum_{i=1}^N \alpha_i^* y_i x_i$

其中至少一个 $\alpha_j^* > 0$ ,因为 $\alpha_j^* \ge 0$ , 不可能全部为0，所以至少一个大于0.

所以就有

$1 - y_j(w * x_j + b) = 0$

因为 $y_j^2 = 1$

可以得到

$b^* = y_j -\sum_{i=1}^N \alpha_i^* y_i (x_i * x_j)$

分离超平面可以写为

$\sum_{i=1}^N \alpha_i^* y_i(x * x_i) + b^* = 0$

分类决策函数可以写为

$sign(\sum_{i=1}^N \alpha_i^* y_i(x * x_i) + b^*)$

2. 线性支持向量机与软间隔最大化

2.1 软间隔

如果训练数据中有不可分奇异点，硬间隔最大化就不能成立，所以需要一个松弛变量 $\xi_i \ge 0$ ,使得函数间隔加上松弛变量大于1。这样，约束条件就变成为了：

$y_i (w * x_i + b) \ge 1 - \xi_i \tag{16}$

同时，目标函数变为：

$\frac {1} {2} ||w||^2 + C\sum_{i=1}^N \xi_i \tag{17}$

其中， $C > 0$ 为惩罚参数， $C$ 值大时对误分类的惩罚增大。

线性不可分的线性支持向量机的学习问题变成如下凸二次规划问题：

$\begin{aligned} &\min_{w,b,\alpha} \frac {1} {2} ||w||^2 + C\sum_{i=1}^N \xi_i \\ & st... y_i(w * x_i + b) \ge 1-\xi_i; \xi_i \ge 0, i=1, 2, ...,N \tag{18} \end{aligned}$

2.2 学习的对偶问题

软间隔问题的拉格朗日函数为

$L(w,b,\xi,\alpha,\mu) = \frac {1} {2} ||w||^2 + C \sum_{i=1}^N \xi_i - \sum_{i=1}^N \alpha_i (y_i (w * x_i + b) - 1 + \xi_i) - \sum_{i=1}^N \mu_i \xi_i \tag{19}$

其中 $\alpha_i \ge 0, \mu_i \ge 0$ 。

对偶问题时拉格朗日的极大极小问题。首先求 $L(w,b,\xi, \alpha,\mu)$ 对 $w,b,\xi$ 的极小值

$\frac {\partial L} {\partial w} = w - \sum_{i=1}^N \alpha_i y_i x_i = 0$

$\frac {\partial L} {\partial b} = - \sum_{i=1}^N \alpha_i y_i = 0$

$\frac {\partial L} {\partial \xi} = C - \alpha_i - \mu_i = 0$

得到：

$\sum_{i=1}^N \alpha_i y_i x_i \tag{20}$

$\sum_{i=1}^N \alpha_i y_i = 0 \tag{21}$

$\alpha_i - \mu_i = 0 \tag{22}$

带回拉格朗日函数得到：

$\min_{w,b,\xi} L(w,b,\alpha,\xi,\mu) = - \frac {1} {2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i * x_j) + \sum_{i=1}^N \alpha_i \tag{23}$

再求对 $\alpha$ 极大值，即得对偶问题：

$\begin{aligned} \max_{\alpha} & - \frac {1} {2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i * x_j) + \sum_{i=1}^N \alpha_i \\ s.t... & \sum_{i=1}^N \alpha_i y_i = 0 \\ & C - \alpha_i - \mu_i = 0 \\ & \alpha_i \ge 0 \\ & \mu_i \ge 0, i=1,2,...,N. \tag{24} \end{aligned}$

转化之后可以得到

$\begin{aligned} \min_{\alpha} & \frac {1} {2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i * x_j) + \sum_{i=1}^N \alpha_i \\ s.t... & \sum_{i=1}^N \alpha_i y_i = 0 \\ & 0 \le \alpha \le C, i=1,2,...,N. \tag{25} \end{aligned}$

下面依据KKT条件进行求解

线性不可分的线性支持向量机的学习问题变成如下凸二次规划问题：

$\begin{aligned} \min_{w,b,\alpha}: & \frac {1} {2} ||w||^2 + C\sum_{i=1}^N \xi_i \\ st...: & y_i(w * x_i + b) \ge 1-\xi_i \\ & \xi_i \ge 0, i=1, 2, ...,N \end{aligned}$

根据KKT条件可以得到：

$\begin{aligned} \min: & L = \frac {1} {2} ||w||^2 + C \sum_{i=1}^N \xi_i - \sum_{i=1}^N \alpha_i (y_i (w * x_i + b) - 1 + \xi_i) - \sum_{i=1}^N \mu_i \xi_i \\ st...: & \alpha_i (y_i (w * x_i + b) - 1 + \xi_i) = 0 \\ & \mu_i \xi_i = 0 \\ & y_i(w * x_i + b) \ge 1-\xi_i \\ & \xi_i \ge 0 \\ & \alpha_i \ge 0 \\ & \mu_i \ge 0, i=1, 2, ...,N \end{aligned}$

同样可以得到：

$\begin{aligned} & \frac {\partial L} {\partial w} = w - \sum_{i=1}^N \alpha_i y_i x_i = 0 \\ & \frac {\partial L} {\partial b} = - \sum_{i=1}^N \alpha_i y_i = 0 \\ & \frac {\partial L} {\partial \xi} = C - \alpha_i - \mu_i = 0 \\ & \alpha_i (y_i (w * x_i + b) - 1 + \xi_i) = 0 , i=1, 2, ...,N\\ & \mu_i \xi_i = 0, i=1, 2, ...,N \\ & y_i(w * x_i + b) \ge 1-\xi_i, i=1, 2, ...,N \\ & \xi_i \ge 0, i=1, 2, ...,N \\ & \alpha_i \ge 0, i=1, 2, ...,N \\ & \mu_i \ge 0, i=1, 2, ...,N \end{aligned}$

若存在 $0<\alpha_j^*<C$ ,同样可以得到：

$w^* = \sum_{i=1}^N \alpha_i^* y_i x_i$

$b^* = y_j -\sum_{i=1}^N \alpha_i^* y_i (x_i * x_j)$

分离超平面可以写为

$\sum_{i=1}^N \alpha_i^* y_i(x * x_i) + b^* = 0$

分类决策函数可以写为

$sign(\sum_{i=1}^N \alpha_i^* y_i(x * x_i) + b^*)$

2.3 合页损失函数

$\begin{aligned} \min_{w,b,\alpha} & \frac {1} {2} ||w||^2 + C\sum_{i=1}^N \xi_i \\ st...& y_i(w * x_i + b) \ge 1-\xi_i\\ & \xi_i \ge 0, i=1, 2, ...,N \end{aligned}$

又上式可得：

$\xi_i = \max(0, 1 - y_i(w* x_i + b))$

上式就为合页损失函数(hinge loss function).

等价的最优化问题：

$\min_{w,b} \sum_{i=1}^N \max(0, 1 - y_i(w* x_i + b)) + \lambda ||w||^2$

其中 $\lambda = \frac {1} {2C}$

第一项可以理解为，当样本被正确分类且函数间隔 $y_i(w*x_i +b) > 1$ ，损失为0，否则损失为 $1 - y_i (w * x_i + b)$ ;
第二项可以理解为正则化项。

其实我们解决SVM问题也可以直接对上面的式子进行梯度下降法求解，但是这样做有缺点，一个是在求解过程中会出现判断条件，计算速度会慢；二是没有办法运用核技巧进行非线性映射。

3. 非线性支持向量机与核函数

先看一个例子
$(x_1, x_2), z = (z_1, z_2) \\ ⇒ (x * z) = (x_1 z_1 + x_2 z_2) \\ \phi(x) = (x_1^2, x_2^2, \sqrt{2 } x_1 x_2); \phi(z) = (z_1^2, z_2^2, \sqrt 2 z_1 z_2) \\ ⇒ \phi(x)* \phi(z) = (x_1^2 z_1^2 + x_2^2 z_2^2, 2 x_1 x_2 z_1 z_2) = (x * z)^2$

可以利用解线性分类问题的方法求解非线性分类问题的支持向量机。

所以分类决策函数可以写作：

$sign(\sum_{i=1}^N \alpha_i^* y_i \phi(x_i)* \phi(x) + b^*) = sign(\sum_{i=1}^N \alpha_i^* y_i K(x_i, x) + b^*)$

比如运用多项式和函数可以得到：

$sign(\sum_{i=1}^N \alpha_i^* y_i (x_i * x + 1)^p + b^*)$

运用高斯和函数可以得到：

$sign(\sum_{i=1}^N \alpha_i^* y_i \exp (- \frac {||x_i - x||^2} {2 \sigma^2}) + b^*)$

董蝈蝈

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之支持向量机(SVM)

支持向量机是一种二分类模型。有简至繁：线性可分支持向量机(linear support vector machine in linearly separate case),当训练数据线性可分时，可以通过硬间隔最大化，学习一个线性分类器。线性支持向量机(linear support vector machine)，当训练数据近似线性可分时，通过软间隔最大化，学习线性分类器。非线性支持向量机(non-linear support vector machine)，当训练数据不可分时，通过使用核技巧及软间.
复制链接

扫一扫

专栏目录