机器学习算法（五）：支持向量机（SVM）

最新推荐文章于 2024-05-29 21:17:05 发布

tuqinag

最新推荐文章于 2024-05-29 21:17:05 发布

阅读量2.1k

点赞数 3

分类专栏：机器学习算法文章标签：机器学习 svm 支持向量机

本文链接：https://blog.csdn.net/tuqinag/article/details/54743461

版权

本文详细介绍了支持向量机（SVM），包括线性可分支持向量机、线性支持向量机、非线性支持向量机及其与核函数的关系。内容涵盖函数间隔、几何间隔、间隔最大化、支持向量、学习的对偶算法，以及序列最小最优化算法（SMO）等关键概念，旨在深入理解SVM的工作原理和优化策略。

摘要由CSDN通过智能技术生成

支持向量机（Support Vector Machine，SVM）

支持向量机是一种二分类模型。它的学习策略是间隔最大化，可以形式化为一个求解凸二次规划的问题，支持向量机的学习算法是求解凸二次规划的最优化问题。支持向量机的模型包括三种类型：线性可分支持向量机、线性支持向量机、非线性支持向量机。当训练数据线性可分时，通过硬间隔最大化，学习一个线性分类器，也即线性可分支持向量机；当训练数据近似可分时，通过软间隔最大化，也学习一个线性的分类器，即线性支持向量机；当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。

核函数表示将输入从输入空间映射到特征空间得到的特征向量之间的内积。通过使用核函数可以学习非线性支持向量机，等价于隐式地在高维的特征空间中学习线性支持向量机。

由于支持向量机是一种二分类模型，它并不能像softmax分类器那样学习一个多分类的模型。如果想要用其来学习多分类的模型，就需要将每一个类作为正类，其他类作为负类，学习一个分类器，直到对每一个类别都学习到一个分类器。

线性可分支持向量机

给定一个特征空间上的训练数据集

T = {(x 1, y 1), (x 2, y 2), . . ., (x N, y N)}

$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$

其中 $y_i$ 表示训练数据的类别。当 $y_i=+1$ 时，称 $x_i$ 为正例；当 $y_i=-1$ 时，称 $x_i$ 为负例。

给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为

w * \cdot x + b * = 0

$w^* \cdot x+b^*=0$

以及相应的分类决策函数

f (x) = s i g n (w * \cdot x + b *)

$f(x)=sign(w^* \cdot x+b^*)$

称为线性可分支持向量机。

支持向量机中的间隔是通过几何间隔以及函数间隔来刻画的，接下来就来介绍下这两种间隔。

函数间隔

对于给定的训练数据集 $T$ 和超平面 $(w,b)$ ,定义超平面 $(w,b)$ 关于样本点 $(x_i,y_i)$ 的函数间隔为

γ i^= y i (w \cdot x i + b)

$\hat{\gamma_i} = y_i(w \cdot x_i + b)$

一般来说，一个点距离分类平面的远近可以表示分类预测的确信程度。在超平面 $w \cdot x+b=0$ 确定的情况下， $|w \cdot x+b|$ 能够相对地表示点 $x$ 距离超平面的远近。而 $w \cdot x+b$ 的符号与类标号 $y$ 的符号是否一致能够表示分类是否正确。所以可以使用函数间隔来表示分类的正确性以及确信度。

但函数间隔的缺点也非常明显。只要成比例的改变 $w$ 和 $b$ ，函数间隔也会随之增大，但其实分类平面并没有发生变化。所以需要对分类平面的发向量 $w$ 加上一些约束，使得间隔是确定的，这就是接下来要介绍的几何间隔。

几何间隔

对于给定的训练数据集 $T$ 和超平面 $(w,b)$ ,定义超平面 $(w,b)$ 关于样本点 $(x_i,y_i)$ 的几何间隔为

γ i = y i (w | | w | | \cdot x i + b | | w | |)

$\gamma_i = y_i(\tfrac{w}{||w||} \cdot x_i + \tfrac{b}{||w||})$

超平面 $(w,b)$ 关于样本点 $(x_i,y_i)$ 的几何间隔一般是实例点到超平面的带符号的距离，当样本点被超平面正确分类时就是实例点到超平面的距离。因为几何间隔并不会出现函数间隔的那种缺点，所以在使分类器间隔最大化时，使用的是几何间隔。

间隔最大化

支持向量机学习的基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。对线性可分的训练数据集而言，线性可分的超平面有无穷多个，但几何间隔最大的分离超平面是唯一的（有相应的定理可以对其证明）。间隔最大化的直观解释是：对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据集进行分类。也就是说，不仅将正负实例点分开，而且对最难分的实例点（距离分类平面最近的实例点）也有足够大的确信度将它们分开。

原始最优化问题

间隔最大化线性可分支持向量机的最优化问题为：

m a x w, b γ

$max_{w,b} \gamma$

s . t . y i (w | | w | | \cdot x i + b | | w | |) \geq γ, i = 1, 2, . . ., N

$s.t. y_i(\tfrac{w}{||w||} \cdot x_i + \tfrac{b}{||w||}) \geq \gamma, i=1,2,...,N$

考虑到几何间隔与函数间隔之间的关系，可以将原问题转化为一下问题：

m a x w, b γ ̂ | | w | |

$max_{w,b} \tfrac{\hat{\gamma}}{||w||}$

s . t . y i (w \cdot x i + b) \geq γ ̂

$s.t. y_i(w \cdot x_i + b) \geq \hat{\gamma}$

考虑到函数间隔的性质：成比例地改变参数 $w$ 和 $b$ ，函数间隔也会成比例地发生变化，但是分离超平面并不会发生变化。这表明，函数间隔的取值并不会影响最优化函数的解。因为只要改变 $w$ 和 $b$ ，可以在函数间隔取任何值时，找到同一个分离超平面。为了方面，将函数间隔取1。将最大化问题转变为最小化问题，则原问题转变为以下问题：

m i n w, b 1 2 | | w | | 2

$min_{w,b} \tfrac{1}{2}||w||^2$

s . t . y i (w \cdot x i + b) \geq 1, i = 1, 2, . . ., N

$s.t. y_i(w \cdot x_i +b) \geq 1, i=1,2,...,N$

支持向量

在线性可分的情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量。支持向量是使下列条件等号成立的点：

y i (w \cdot x i + b) - 1 = 0

$y_i(w \cdot x_i + b)-1=0$

支持向量

在决定分离超平面时只有支持向量起作用，而其他实例点并不起作用。如果移动支持向量将改变所求的解；但是如果在间隔边界以外移动其他实例点，甚至去掉这些点，则解是不会改变的。支持向量的个数一般很少，所以支持向量机由很少的”重要的”训练样本确定。

学习的对偶算法

由于求解原问题并不容易，所以会通过拉格朗日函数将原问题转化为对偶问题，通过求解对偶问题使其满足KKT（Karush-Kuhn-Tucker）条件，从而求得原问题的解。接下来，就简单讨论下这里会涉及到的一些理论。

原始问题

假设 $f(x),c_i(x),h_j(x)$ 是定义在 $R^n$ 上的连续可微函数，考虑约束最优化问题

m i n x \in R f (x)

$min_{x \in R} f(x)$

s . t . c i (x) \leq 0, i = 1, 2, . . ., k

$s.t. c_i(x) \leq 0, i=1,2,...,k$

h j (x) = 0, j = 1, 2, . . ., l

$h_j(x)=0, j=1,2,...,l$
称此约束最优化问题为原始最优化问题或原始问题。

引入广义拉格朗日函数

L (x, α, β) = f (x) + \sum i = 1 k α i c i (x) + \sum j = 1 l β j h j (x)

$L(x,\alpha,\beta)=f(x) + \sum_{i=1} ^{k} \alpha_{i} c_i(x) + \sum^{l}_{j=1} \beta_j h_j(x)$

这里， $\alpha_i,\beta_j$ 是拉格朗日乘子， $\alpha_i \geq 0$ 。考虑 $x$ 的函数：

θ p (x) = m a x α, β : α i \geq 0 L (x, α, β)

$\theta_p(x) = max_{\alpha,\beta:\alpha_i \geq 0} L(x,\alpha,\beta)$
这里下标

P $P$ 表示原始问题。

假设给定某个 $x$ 。如果 $x$ 违反原始问题的约束条件，即存在某个 $i$ 使得 $c_i(w)>0$ 或者存在某个 $j$ 使得 $h_j(x) \neq 0$ ，那么就有

θ p (x) = m a x α, β : α_i \geq 0 [f (x) + \sum i = 1 k α i c i (x) + \sum j = 1 l β j h

最低0.47元/天解锁文章

tuqinag

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法（五）：支持向量机（SVM）

支持向量机（Support Vector Machine，SVM）支持向量机是一种二分类模型。它的学习策略是间隔最大化，可以形式化为一个求解凸二次规划的问题，支持向量机的学习算法是求解凸二次规划的最优化问题。支持向量机的模型包括三种类型：线性可分支持向量机、线性支持向量机、非线性支持向量机。当训练数据线性可分时，通过硬间隔最大化，学习一个线性分类器，也即线性可分支持向量机；当训练数据近似可分时，通过
复制链接

扫一扫