【SVM原理推导】核SVM为什么能分类非线性问题？

天使Di María

已于 2023-01-24 17:27:55 修改

阅读量1.3k

点赞数 2

分类专栏：计算机（AI）保研面试题目&简答题系列&机试面试真题（亲测）文章标签：分类

于 2023-01-24 15:10:41 首次发布

本文链接：https://blog.csdn.net/m0_51339444/article/details/128756366

版权

计算机（AI）保研面试题目&简答题系列&机试面试真题（亲测）专栏收录该内容

27 篇文章 3 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了支持向量机（SVM）的基本原理和推导，探讨了SVM如何通过核函数解决非线性分类问题。SVM寻找最大边距超平面，软间隔允许处理噪声和非线性数据。核函数是SVM的关键，它避免了高维空间的复杂计算，实现了低维空间的非线性决策边界。

摘要由CSDN通过智能技术生成

核SVM为什么能分类非线性问题？要解决这个问题，首先应该先深入理解SVM的原理与本质。（涉及SVM的问题是很常见的，因为SVM可以算是传统机器学习领域非常成功的算法之一了，现在仍有许多research运用SVM解决问题。）

一、支持向量机（SVM）

1. 基本介绍与提出背景

支持向量机（Support Vector Machine, SVM）是一类按监督学习（supervised learning）方式对数据进行二元分类的广义线性分类器（generalized linear classifier），其决策边界是对学习样本求解的最大边距超平面（maximum-margin hyperplane）。SVM使用铰链损失函数（hinge loss）计算经验风险（empirical risk）并在求解系统中加入了正则化项以优化结构风险（structural risk），是一个具有稀疏性和稳健性的分类器。SVM可以通过核方法（kernel method）进行非线性分类，是常见的核学习（kernel learning）方法之一。SVM是由下面三个伟大的科学家提出的👇：
在这里插入图片描述
SVM提出的目的是寻找最优分类决策边界，因为对于线性可分的数据集来说，决策边界可能有很多个，以下图为例，H₁和H₂都可以讲红色样本和蓝色样本区分开，那么哪种分类面才是最好的呢？也就是说，如何寻找一个最有分类面，使得泛化能力更强，对于未知（将来）的数据，错误率更小呢？
在这里插入图片描述

2. SVM算法原理及推导（手推）

下图是SVM算法的原理图，我们称距离决策面最近的样本点为支持向量，SVM属于带约束的优化问题，即在凸不等式约束下，最小化（凸）目标函数，即找到决策边界，使得支持向量到决策边界的距离最大，即max-margin。
在这里插入图片描述
SVM涉及到了很多知识：（1）拉格朗日算法；（2）偏导数的求解（3）对偶原则；（4）KKT条件；（5）凸函数（凸优化问题）与对偶问题的关系与转化；下面是博主手写的SVM的转化过程👇，如果对哪里有疑问，欢迎在评论区留言一起讨论哦~
在这里插入图片描述
上面是SVM的整个流程，但是为了更加直观，省略了一些推导过程，如果想深入了解推导过程的，可以看下图👇：

如果对公式不感冒的话，可以尝试做一下这个例题（套公式）：

3. 软间隔SVM

一般地，SVM指的是硬间隔SVM，也就是说，数据集是线性可分的，而且没有噪声。这仅仅适用于理想情况下，而实际任务中，绝大多数都不是线性可分的，而且含有少量噪声。如下图所示：在这里插入图片描述
因此，软间隔SVM引入松弛变量ξ_i

C是惩罚系数： C 越大，对错分的惩罚力度越大； C 越小，获得的分类面间隔越大，如果没有理解可以通过下图予以辅助：

4. 硬间隔SVM VS 软间隔SVM

在这里插入图片描述

二、核函数与非线性支持向量机

广义线性判别函数：将低维特征向量映射到高维空间中，学习线性判别函数。换句话说，实际场景中很可能我们拿到的数据是线性不可分的，因此需要升维，升高维度后可能就仅通过一个超平面即可将样本进行分类👇 在这里插入图片描述
SVM中提到升维。不得不提到核函数。

核函数，统计学术语，支持向量机通过某非线性变换 φ( x) ，将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算，而在低维输入空间又存在某个函数 K(x, x′) ，它恰好等于在高维空间中这个内积，即K( x, x′) =<φ( x) ⋅φ( x′) > 。那么支持向量机就不用计算复杂的非线性变换，而由这个函数 K(x, x′) 直接得到非线性变换的内积，使大大简化了计算。这样的函数 K(x, x′) 称为核函数。

在上面的手推过程中，最终利用对偶原则转换后，最终的优化问题含有内积形式，当升高维度到一定程度时（维度p过高），计算变得很复杂，这就引出核函数，构造K(x, x′)，代替内积。就相当于计算a*b，要先拿到a,再拿到b，再计算，但是a和b我拿不到，于是就想办法直接偷到答案c，直接拿到二者的乘积。关于核方法的推导如有需要自取：https://download.csdn.net/download/m0_51339444/87395790
常见的核函数如下：
在这里插入图片描述
于是，总结起来，核SVM通过将线性不可分的低维样本映射到高维达到可分的效果。