机器学习实验（支持向量机SVM）

m0_73160249

已于 2024-06-11 16:55:03 修改

阅读量760

点赞数 21

分类专栏：机器学习实验课文章标签：机器学习支持向量机算法

于 2024-06-11 15:38:43 首次发布

本文链接：https://blog.csdn.net/m0_73160249/article/details/139593585

版权

机器学习实验课专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、支持向量机介绍

1.1算法概述

支持向量机（Support Vector Machine, SVM）是一种广泛应用的监督学习算法，主要用于数据分类问题。它基于统计学习理论和结构风险最小化原则，通过找到一个决策超平面来最大化不同类别之间的间隔，以此来实现数据分类。

1.2算法原理

SVM的工作原理其实并不复杂。首先，它尝试找到一个决策超平面（在二维空间中就是一条线，三维空间中是一个面，以此类推），将不同类别的数据点分隔开。但SVM并不满足于仅仅找到一个分隔面，它追求的是最优分隔面——即那个距离两边数据点都最远的分隔面。这个最优分隔面上的数据点，我们称之为“支持向量”，因为它们“支持”着这个分隔面，故它们对分类结果起着决定性的作用。

SVM的一个核心思想是核技巧。简单来说，核技巧就是通过一个映射函数，将原始空间中的数据点映射到一个更高维的空间中，使得原本线性不可分的数据变得线性可分。

1.2.1线性可分

在二分类问题中，如果存在一个超平面能够将所有样本正确分类，则称这些样本是线性可分的。假设在n维空间中，超平面可以用以下方程表示：

$w^{T}x+b=0$

其中，w 是权重向量，x 是样本向量，b 是偏置项。对于线性可分的样本集，我们可以找到一个超平面，使得所有正类样本满足 $w^{T}x_{i}+b\geqslant 1$ ，负类样本满足 $w^{T}x_{i}+b\leqslant -1$ 。

1.2.2寻找最大间隔

SVM不仅要求找到一个超平面来划分样本，还要求这个超平面到两边的样本点的距离尽可能大，即寻找最大间隔。假设超平面到样本点 $\left ( x_{i} ,y_{i}\right )$ 的距离为 $d_{i}$ ，则最大间隔可以表示为：

$d_{i}=\frac{\begin{vmatrix} w^{T} x+b \end{vmatrix}}{\begin{Vmatrix} w \end{Vmatrix}}$

通过推导，我们可以得到最大间隔的等价形式为：

$\underset{w,b}{max}\frac{1}{\left \| w \right \|} s.t. y_{i}(w^{T}x_{i}+b)\geqslant 1$

1.2.3软间隔

在实际情况中，完全线性可分的样本集是很少的。SVM因为支持向量的选取的原因，很容易受噪声干扰，在现实中很容易因为部分样本导致支持向量间距过窄。为了处理那些不能被完全正确分类的样本，SVM引入了软间隔的概念。

这个时候我们引入软间隔，允许部分样本在间隔内。即允许一些样本点被错分到另一边，但同时要为这些样本点付出一定的代价。这可以通过引入松弛变量 ξi 来实现，此时的目标函数变为：

$\underset{w,b,\xi }{min}\frac{1}{2}\left \| w \right \|^{2}+C\sum_{i=1}^{N}\xi i$

$s.t.y_{i}(w^{T}x_{i}+b)\geqslant 1-\xi _{i}, \xi _{i}\geqslant 0$

其中，C是一个常数，用于平衡间隔大小和错误分类的代价。

1.2.4低维到高维映射与核函数

当样本在原始空间线性不可分时，我们可以尝试将样本映射到一个更高维的空间中，使其变得线性可分。这可以通过使用一个非线性映射函数 ϕ(x) 来实现。在SVM中，我们通常使用核函数来隐式地实现这种映射。

假设原始空间中的两个样本点为xi和xj，通过非线性映射ϕ将它们映射到高维空间，则高维空间中的点积可以表示为ϕ(xi)⋅ϕ(xj)。然而，直接计算ϕ(x)可能是困难的，因此SVM使用核函数K(xi,xj)来替代这个高维空间中的点积，即：

$K\left ( x_{i},x_{j} \right )=\Phi (x_{i})*\Phi (x_{j})$

通过选择合适的核函数，我们可以隐式地实现低维到高维的映射，并在高维空间中应用SVM算法。

几个常见核函数：

1. 线性核（Linear Kernel）：

$K(x_{i},x_{j})=x_{i}*x_{j}$

线性核实际上不进行任何映射，直接在原始空间中计算点积。它适用于线性可分的情况。

2. 多项式核（Polynomial Kernel）：

$K(x_{i},x_{j})=(x_{i}*x_{j}+1)^{d},d\geqslant 1$

多项式核可以实现非线性映射。

3. 径向基函数（RBF）核（Radial Basis Function Kernel）：

$K(x_{i},x_{j})=exp(-\frac{\left \| x_{i}-x_{j} \right \|^{2}}{2\sigma ^{2}} )$

RBF核也称为高斯核，是一种常用的核函数，它可以将样本映射到一个无穷维的空间中。

4. Sigmoid核（Sigmoid Kernel）：

$K(x_{i},x_{j})=tanh(\beta x_{i}*x_{j}+c)$

1.3算法优缺点

1.3.1优点

高效性：SVM在处理高维数据时表现出色，因为它只关注支持向量，而忽略大部分非支持向量。
泛化能力强：由于SVM追求的是最优分隔面，因此它对新数据的分类能力通常很强。
鲁棒性：SVM对噪声和异常值有一定的容忍度，不会因为个别数据点的偏离而影响整体分类效果。

1.3.2缺点

计算复杂性：当数据量非常大时，SVM的训练时间会显著增加，因为需要计算每个数据点到分隔面的距离。
参数选择：SVM的性能受到参数选择的影响，如核函数的选择、惩罚系数C等。这些参数通常需要通过交叉验证等方法进行调优。