[学习笔记]数据挖掘-week5

最新推荐文章于 2024-11-06 18:54:55 发布

午夜涂猪男

最新推荐文章于 2024-11-06 18:54:55 发布

阅读量161

点赞数

文章标签：数据挖掘支持向量机机器学习

本文链接：https://blog.csdn.net/qq_19078137/article/details/120999270

版权

本文详细介绍了支持向量机（SVM）的核心思想，包括线性SVM和非线性SVM。SVM通过寻找最大边距超平面实现分类，线性SVM解决线性可分问题，非线性SVM利用核函数映射到高维空间解决非线性问题。此外，文章还探讨了SVM的VC维、决策平面以及模型复杂度与测试误差的关系。

摘要由CSDN通过智能技术生成

支持向量机（SVM）

学习视频：80240372X 数据挖掘：理论与算法（自主模式）

核心思想：

从输入空间向特征空间做映射。

Linear SVMs

SVM 最开始为线性分类器，分类过程如下图。

线性支持向量机

图片来源：Burges, C.J. A Tutorial on Support Vector Machines for Pattern Recognition. Data Mining and Knowledge Discovery 2, 121–167 (1998)

$H_1$ 与 $H_2$ 为用于分类的超平面, $w$ 为垂直与超平面的向量， $b$ 为常量，用于偏离原点。分界面中心至原点的距离为 $- b / ∣ ∣ w ∣ ∣$ ，或表示为 $∣ b ∣ / ∣ ∣ w ∣ ∣$ 。分类条件如下（对于每个点 $x_i$ ）：

$\begin{aligned} x_i\cdot w + b &\ge +1\quad\text{for}\quad y_i=+1\\ x_i\cdot w + b &\le -1\quad\text{for}\quad y_i=-1\\ \end{aligned}$

其中 $\pm 1$ 用来代表需要区分的两个类别。图中的 margin 空间越大，表示分类器效果更好。上下两个超平面上加圆圈的数据点被称为支持向量（Support Vectors）。而 SVM 能够保证超平面间的 margin 最大。上述的 SVM 又称为线性支持向量机（LSVM）。依旧只能处理线性分类问题。

空间中的数据点到达中心超平面（上图中的实线）的距离表示为：

$\frac{|x_i\cdot w + b|}{||w||}$

则上下两个超平面到中心平面的距离相等，且 margin 的宽度为其两倍。

$\begin{aligned} &\frac{|\pm1|}{||w||},\quad\text{distance}\\[2ex] &\frac{2}{||w||},\quad\text{margin} \end{aligned}$

综上，判断样本点是否被正确分类，可用如下公式统一表示：

$y_i(w\cdot x_i + b) - 1 \ge 0$

在样本被正确分类的前提下，最大化 margin，等价于最小化如下函数。

$\text{max }M=\frac{2}{||w||}\Rightarrow \text{min }\frac{1}{2}w^Tw$

加上正确分类的约束条件，LSVM 的优化问题如下：

$\begin{aligned} &\text{min }\quad \frac{1}{2}w^Tw\\ &\text{s.t. }\quad y_i(w_i\cdot x + b) \ge 1 \end{aligned}$

通过拉格朗日乘数法对该问题进行求解。

$\begin{aligned} L_P &= \frac{1}{2}||w||^2 - \sum_{i=1}^la_iy_i(w_i\cdot x_i + b) + \sum_{i=1}^la_i\\[2ex] &\frac{\partial L_P}{\partial w}= 0 \Rightarrow w=\sum_{i=1}^la_iy_ix_i\\[2ex] &\frac{\partial L_P}{\partial b}=0 \Rightarrow \sum_{i=1}^la_iy_i = 0 \end{aligned}$

这里的拉格朗日乘数法之所以是减去限制条件，是因为将该问题做为二次规划问题处理，而二次规划问题中，不等式限制条件是小于等于 0 的形式。

将求导后的结果带回原式，得到新的目标函数（与原式表达的问题为对偶问题，一般对偶问题与原问题不等价，但 SVM 满足某些条件使得两问题可等价）。

$\begin{aligned} L_D &= \sum_ia_i - \frac{1}{2}\sum_i\sum_ja_ia_jy_iy_jx_ix_j\\[2ex] &= \sum_ia_i-\frac{1}{2}a^THa\quad where \quad H_{i,j}=y_iy_jx_i\cdot x_j\\[2ex] s.t.&\quad \sum_ia_iy_i=0 \quad \&\quad a_i\ge 0 \end{aligned}$

同样，新的目标函数依旧是二次规划问题。求解过程更加方便。只有 1 个变量，即拉格朗日乘数。求解后，只有少部分 $a$ 非零，而非零的点就是支持向量。

$\begin{aligned} g(x) &= w\cdot x + b\\ &= \sum_ia_iy_ix_i\cdot x + b \end{aligned}$

得出支持向量后，任选一个支持向量带入即可求 b。

$\begin{aligned} y_s(x_s\cdot w + b) &= 1\\ y_s(\sum_{m\in s}a_my_mx_m\cdot x_s + b) &= 1\\ y_x^2(\sum_{m\in s}a_my_mx_m\cdot x_s + b)&=y_s\\ y_s - \sum_{m\in s}a_my_mx_m\cdot x_s &= b \end{aligned}$

$y_s$ 是超平面处讨论的每个点的取值。上下超平面上的点取值只有正负一。所以平方后省略。

上述讨论的前提都是样本点被正确分类，然而，实际数据处理过程中，会出现某些 A 类点在 B 类点中，或 B 类点在 A 类点中。从而无法满足正确划分类别的不等式条件。此时，可以加上一个非负数，若满足条件，依旧视为正确划分。

$\begin{aligned} y_i(x_i\cdot w + b) - 1 + \xi_i \ge 0\\ \text{min }\quad \frac{1}{2}w^Tw + C\sum_i\xi_i\\ \xi_i \ge 0 \end{aligned}$

相应的需要优化的目标函数也跟着改变，C 表示惩罚量。优化也是用拉格朗日乘数法。得到新的目标函数。

$\begin{aligned} L_D = \sum_ia_i - \frac{1}{2}a^THa \\ s.t.\quad 0\le a_i\le C\quad\&\sum_ia_iy_i = 0 \end{aligned}$

相比于理想状况，只是限制条件多了一个上限。

Non-linear SVMs

为使 SVM 能够处理线性不可分问题，将原始空间的数据映射到特征空间中，在特征空间中，该数据是线性可分的。类似下图所示。

原始空间

特征空间

映射到更高维度的空间中相应的计算复杂度也就上升，但在 SVM 中存在这样的特性（来源于向量之间的点乘）。

$K(a,b)=(a\cdot b + 1)^2 = \varPhi(a)\cdot\varPhi(b)$
$\varPhi(x)=(1,\sqrt{2}x_1...\sqrt{2}x_m,x_1^2,...,x_m^2,\sqrt{2}x_1x_2,\sqrt{2}x_1x_3,...,\sqrt{2}x_{m-1}x_m)$

$\varPhi(x)$ 是定义的原始空间向量 x 在高维空间上的映射。 $K (a, b)$ 为核函数，不同的核函数对应不同的高维空间。常用的核函数如下：

$\begin{aligned} \text{Polynomial: } K(x_i,x_j) = (x_i\cdot x_j + 1)^d\\ \text{Gaussian: } K(x_i,x_j) = \text{exp}\left(-\frac{||x_i-x_j||^2}{2\sigma^2} \right) \end{aligned}$

则高维空间中对支持向量机的计算过程转化如下。最终都转化成核函数的计算。

$\begin{aligned} &w = \sum_{i=1}^la_iy_i\varPhi(x_i)\\ &w\cdot\varPhi(x_j) = \sum_{i=1}^la_iy_i\varPhi(x_i)\cdot\varPhi(x_j)=\sum_{i=1}^la_iy_iK(x_i,x_j)\\ &b = y_s - \sum_{m\in s}a_my_mK(x_m,x_s)\\ &g(x) = \sum_{i=1}^la_iy_iK(x_i,x) + b \end{aligned}$