机器学习之支持向量机

1o0.0o1

已于 2023-08-24 09:36:30 修改

阅读量54

点赞数

文章标签：机器学习支持向量机人工智能

于 2023-08-05 23:15:53 首次发布

本文链接：https://blog.csdn.net/qq_60489376/article/details/132125862

版权

支持向量机

什么是支持向量
对偶问题
核函数
软间隔和正则化
支持向量回归
核方法

什么是支持向量

给定一个样本集D,分类算法就是从这个样本集中找到一条线或者一个面来划分开这个样本集。如图:
在这里插入图片描述
在这个样本空间中,用于划分的直线可以用于 $w^Tx+b=0$ 来表示,其中 $w$ 为法向量,决定了超平面的方向,b为偏移量,决定了超平面与原点之间的距离。

超平面的法向量

这里可能有人会有疑问,为什么说 $w$ 为这个超平面的法向量呢,这里我举个例子:

现在我们在超平面上有两个点分别为 $x_1$ , $x_2$ 然后我们将这两个点带入超平面的公式得到:
$w^Tx_1+b=0$
$w^Tx_2+b=0$
然后我们把上面两个式子相减得到:
$w^T(x_1-x_2)=0$
这告诉我们向量 $w$ 与超平面上任意两点之间的连线（即向量 $x_1和x_2$ 正交。因此，向量 $w$ 正交于超平面上的任意方向，所以它是超平面的法向量。

接着,我们计算空间中的任意一点到这个法向量的距离为:
$r=\frac{|w^Tx+b|}{||w||}$
其中

$w^Tx+b|$ 反映了点离超平面的“原始距离”。若一个点在超平面的一侧，其值为正；若在另一侧，则为负。取绝对值后，得到了点到超平面的正距离。
$∣∣ w ∣∣$ 是用于归一化的因子。通过除以 $∣∣ w ∣∣$ 我们可以消除 $w$ 长度的影响,使得距离不依赖于 $w$ 的长度，仅与其方向有关。

原始距离

这里解释一下"原始距离这个概念":

支持向量机的目的是找到一个超平面来将两个不同的类别分开。这个超平面可以由方程 $w^Tx+b=0$ 来表示。现在考虑一个样本点 $x$ ,我们可以将其带入到超平面方程中计算 $w^Tx+b=0$

若样本点在超平面的一侧，那么 $w^Tx+b=0$ 的值为正,假设我们考虑的是正类样本（对应的标签是+1），那么超平面方程为正意味着样本位于正确的一侧。
若样本点在超平面的另一侧,那么 $w^Tx+b=0$ 的值将会是负的。假设我们考虑的是负类样本（对应的标签是-1），那么超平面方程为负意味着样本位于正确的一侧。

因此 $w^Tx+b$ 的符号与样本的标签相同的时候，就表示样本被正确分类了。但是，为了量化点到超平面的距离，我们想要一个非负值，所以我们取其绝对值 $w^Tx+b|$ 。

那么我们为什么要考虑距离呢？在支持向量机中，我们不仅希望样本被正确分类，还希望样本距离分隔超平面越远越好。这样可以使得分类的决策边界更为“稳健”，对于未知的新样本具有更好的泛化能力。因此 $w^T+b|$ 反映了样本点到超平面的“原始距离”，并且通过取绝对值，我们将其转化为非负值，从而可以用于量化样本点距离超平面的远近。

下面举个计算的例子:

假设我们有一个二维空间，即特征只有两个。我们要找到一个超平面来分隔两个类别，超平面的方程可以表示为：
$w^Tx+b=0$
我们选定权重向量 $w = [2, 3]$ 和偏移量 $b = - 4$ ，那么超平面的方程就是：
$2x_1+3x_2-4=0$
现在假设我们有一个样本点 $x = [1, 1]$ ,我们想计算这个点到超平面的“原始距离”。首先，我们将样本点带入超平面方程：
$2 * 1 + 3 * 1 - 4 = 1$
这个值为正，表示样本点在超平面的一侧。如果这个点的标签是+1，那么这个正的值表示样本被正确分类。现在，我们说的“原始距离”就是这个值的绝对值，即 $∣1∣ = 1$ 。
但是要注意的是，这个“原始距离”并不是几何距离。要计算几何距离，还需要除以权重向量的范数，即：
$\frac{|w^Tx+b|}{||w||}=\frac{1}{\sqrt{2^2+3^2}}\approx0.20$

原始距离主要用于判断样本点是在超平面的哪一侧，以及它离超平面有多远。在训练支持向量机时，这个原始距离可以用来确定支持向量，即离超平面最近的样本点。

支持向量的概念

在书中的6.3式子中,做了一个假设
在这里插入图片描述
距离超平面最近的几个训练样本点使得6.3式成立,他们被称为"支持向量",两个异类支持向量到超平面距离之和为:
$r=\frac{2}{||w||}$

它们被称为间隔:
在这里插入图片描述

公式的推导过程:
在这里插入图片描述
而我们的目标为是最大化这个距离r,因此公式为:

书上也有说,我们求最大化的 $\frac{2}{||w||}$ 的话只需要最小化 $∣∣ w ∣∣$ ,为了方便计算范数,我们可以让: $w||^2$ 最小化,因为 $∣∣ w ∣∣$ 为正数,所以最小化它的平方和直接最小化它是一样的,然后我们在加一个常数系数 $\frac{1}{2}$ ,方便平方求导后约掉,因此,也就有了书上给的
在这里插入图片描述

对偶问题

对偶问题是用来解决如何找到 $w^2$ 的最优解的一个问题,正常情况来讲,对于支持向量的分割面函数 $w^Tx_i+b$ 来说,找到这个最优平面,需要找到w和b的最优解,通过传统算法也可以解决,但是书上提供了一种更加高效的方法,那就是采用拉格朗日乘子法来解决这个问题,首先我们对它的每一个约束都引入一个拉格朗日乘子 $α_i$ ,这时候就可以构建我们的拉格朗日函数了:
$L(w,b,α)=\frac{1}{2}||w||^2+\sum_{i=1}^mα_i(1-y_i(w^Tx+b))$
然后我们分别对 $w$ 和 $b$ 求偏导,并让他们的值为0,就能得到:
$\frac{\partial L}{\partial w} = w-\sum_{i=1}^N α_iy_ix_i=0$
和
$\frac{\partial L}{\partial b} = -\sum_{i=1}^Nα_iy_i=0$

化解后就得到书上表达的形式了,即:
$w=\sum_{i=1}^N α_iy_ix_i$
$\sum_{i=1}^Nα_iy_i=0$

然后再将这个化解得到的式子返回去带入拉格朗日函数得到:
$\max_α \sum_{i=1}^mα_i-\frac{1}{2} \sum_{i=1}^m \sum_{j=1}^mα_iα_jy_iy_jx_i^Tx_j$

解出 $α$ 后求出w和b,可得模型:
$f(x)=w^Tx+b=\sum_{i=1}^mα_iy_ix_i^Tx+b$

剩下的只需要通过SMO算法来优化 $α$ 即可

核函数

在上面的讨论中,我们主要讨论的场景为如何用一个面或者线来划分两种情况,但是如果一个问题出现多种结果,如异或,这时候二维的平面就不足以划分完,这时候就要将这些数据映射到更加高的维度甚至是无限维来进行划分。我们的核函数就是用来做这个的。

首先我们令 $\phi(x)$ 表示x映射到高维后的数据,那么特征空间对应的划分超平面就变为了:
$f(x)=w^T\phi(x)+b$

其对偶问题可变为:
$\max_{w,b} \sum_{i=1}^mα_i-\frac{1}{2} \sum_{i=1}^m \sum_{j=1}^mα_iα_jy_iy_j\phi(x_i)^T\phi(x_j)$

但是由于低维到高维的映射可能会出现大量复杂的计算,甚至可能出现低维映射到无线维,这时候直接计算是很困难的。所以我们通常设想一个这样的函数:
$k(x_I,x_j)=<\phi(x_i),\phi(x_j)>=\phi(x_i)^T\phi(x_j)$
然后带入对偶问题得:
$\max_{w,b} \sum_{i=1}^mα_i-\frac{1}{2} \sum_{i=1}^m \sum_{j=1}^mα_iα_jy_iy_jk(x_I,x_j)$
求解后可得:
$f(x)=\sum_{i=1}^mα_iy_ik(x_I,x_j)+b$