机器学习 | 支持向量机SVM

rookiexiong

已于 2024-01-10 20:17:51 修改

阅读量219

点赞数

分类专栏：机器学习文章标签：支持向量机算法机器学习

于 2023-11-17 15:14:58 首次发布

本文链接：https://blog.csdn.net/m0_62249876/article/details/134463549

版权

机器学习专栏收录该内容

10 篇文章 1 订阅

订阅专栏

支持向量机（Support Vector Machine，SVM）

支持向量机是一种用于二分类和回归分析的监督学习模型。它的目标是找到一个超平面，将数据集分割成两个类别，同时最大化分类边界（间隔）的宽度。SVM在高维空间中表现良好，对于线性和非线性数据都具有很强的泛化能力。

线性SVM

对于二分类问题，我们考虑线性可分的情况，即存在一个超平面可以完全分隔两个类别的样本。即存在 $\mathbf{w} \cdot \mathbf{x} + b = 0$ 将特征空间划分为两个部分。其中， $\mathbf{w}$ 是法向量（权重）， $b$ 是偏置（截距），我们可以定义决策函数：

$f(\mathbf{x}) = \text{sign}(\mathbf{w} \cdot \mathbf{x} + b)$

其中， $\text{sign}(\cdot)$ 是符号函数，如果 $\mathbf{w} \cdot \mathbf{x} + b > 0$ ，则 $f(\mathbf{x}) = 1$ ，否则 $f(\mathbf{x}) = -1$ 。

间隔margin

对于给定的超平面 $\mathbf{w} \cdot \mathbf{x} + b = 0$ ，样本点 $\mathbf{x}_i$ 到超平面的距离可以表示为：

$r_i = \frac{\left|\mathbf{w} \cdot \mathbf{x}_i + b\right|}{\|\mathbf{w}\|}$

其中， $\|\mathbf{w}\|$ 是权重向量的模。

优化问题

在这里插入图片描述

SVM的目标是找到一个最大间隔的超平面。最大化间隔等价于最小化 $\|\mathbf{w}\|$ ，同时满足分类约束：

$y_i(\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1 \quad \text{对于所有的} i$

其中， $y_i$ 是样本 $\mathbf{x}_i$ 的类别标签（+1 或 -1）。为了找到最大间隔超平面，我们可以建立如下的凸二次规划问题：

$\begin{aligned} \text{min } \frac{1}{2}\|\mathbf{w}\|^2 \text{ , s.t.} y_i(\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1 \ \end{aligned}$

通过拉格朗日乘子法，我们可以得到拉格朗日函数：

$L(\mathbf{w}, b, \boldsymbol{\alpha}) = \frac{1}{2}\|\mathbf{w}\|^2 - \sum_{i=1}^{N} \alpha_i \left[ y_i(\mathbf{w} \cdot \mathbf{x}_i + b) - 1 \right]$

其中， $\boldsymbol{\alpha} = (\alpha_1, \alpha_2, \ldots, \alpha_N)$ 是拉格朗日乘子向量， $N$ 是样本数。通过对 $L(\mathbf{w}, b, \boldsymbol{\alpha})$ 分别对 $\mathbf{w}$ 和 $b$ 求偏导并令其等于零，可以得到最优解：

$\begin{aligned} \mathbf{w} & = \sum_{i=1}^{N} \alpha_i y_i \mathbf{x}_i \\ 0 & = \sum_{i=1}^{N} \alpha_i y_i \end{aligned}$

代入原始问题，得到对偶问题：

$\begin{aligned} \text{max} \sum_{i=1}^{N} \alpha_i - \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j \mathbf{x}_i \cdot \mathbf{x}_j \text{, s.t. } \alpha_i \geq 0 \end{aligned}$

且满足约束条件 $\sum_{i=1}^{N} \alpha_i y_i = 0$ ，通过求解对偶问题，我们可以得到最优的 $\boldsymbol{\alpha}$ ，然后可以计算 $\mathbf{w}$ 和 $b$ ，最终得到最大间隔超平面。

非线性SVM与核函数

当数据不是线性可分的时候，我们需要使用非线性SVM。非线性SVM通过引入核函数来将特征空间映射到一个高维空间，从而使得在高维空间中的数据线性可分。常用的核函数包括线性核、多项式核和径向基函数（RBF）核。

核函数引入

对于一个输入特征 $\mathbf{x}$ ，我们将其映射到高维空间中的特征空间 $\phi(\mathbf{x})$ 。然后，我们可以在高维空间中使用线性SVM找到一个超平面，将映射后的数据分隔开。

决策函数

在高维空间中，决策函数可以表示为：

$f(\mathbf{x}) = \text{sign}(\mathbf{w} \cdot \phi(\mathbf{x}) + b)$

优化问题

对于非线性SVM，我们的优化问题变为：
$\begin{aligned} \text{max} \sum_{i=1}^{N} \alpha_i - \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j K(\mathbf{x}_i, \mathbf{x}_j) \text{, s.t. } \alpha_i \geq 0 \end{aligned}$

并且满足约束条件 $\sum_{i=1}^{N} \alpha_i y_i = 0$ ，其中， $K(\mathbf{x}_i, \mathbf{x}_j) = \phi(\mathbf{x}_i) \cdot \phi(\mathbf{x}_j)$ 是核函数，它直接计算在特征空间中的内积。

常用核函数

线性核函数： $K(\mathbf{x}_i, \mathbf{x}_j) = \mathbf{x}_i \cdot \mathbf{x}_j$
多项式核函数（ $d$ 是多项式的次数）： $K(\mathbf{x}_i, \mathbf{x}_j) = (\mathbf{x}_i \cdot \mathbf{x}_j + 1)^d$
径向基函数（RBF）核函数（ $\sigma$ 是一个控制函数宽度的参数）： $K(\mathbf{x}_i, \mathbf{x}_j) = \exp\left(-\frac{\|\mathbf{x}_i - \mathbf{x}_j\|^2}{2\sigma^2}\right)$

rookiexiong

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习 | 支持向量机SVM

它的目标是找到一个超平面，将数据集分割成两个类别，同时最大化分类边界（间隔）的宽度。SVM在高维空间中表现良好，对于线性和非线性数据都具有很强的泛化能力。非线性SVM通过引入核函数来将特征空间映射到一个高维空间，从而使得在高维空间中的数据线性可分。对于二分类问题，我们考虑线性可分的情况，即存在一个超平面可以完全分隔两个类别的样本。然后，我们可以在高维空间中使用线性SVM找到一个超平面，将映射后的数据分隔开。SVM的目标是找到一个最大间隔的超平面。，通过求解对偶问题，我们可以得到最优的。
复制链接

扫一扫