机器学习必备算法之(二)支持向量机(SVM)及Python实现

最新推荐文章于 2024-08-01 22:17:07 发布

置顶

小白胖爱学习-

最新推荐文章于 2024-08-01 22:17:07 发布

阅读量1.4k

点赞数 3

文章标签：算法 python 机器学习支持向量机

本文链接：https://blog.csdn.net/m0_37723079/article/details/104307943

版权

本文介绍了支持向量机的基本概念，包括最大化间隔的线性分类模型，以及如何处理线性可分和不可分的情况。通过引入软间隔和核方法，解决了实际问题中的线性不可分性。此外，对比了SVM与逻辑回归(LR)的差异，并提供了Python实现的概述。

摘要由CSDN通过智能技术生成

什么是支持向量机

从定义上来说是在特征空间上的间隔最大化的线性分类器。…(好像很复杂的样子)…简单的来说，特征空间内，有一些数据点，我们想用一个超平面把他们分成两半，且正类和反类到这个超平面的距离要最大，这种分类模型就是支持向量机。比如，二维空间中，我找一条直线把数据点们划分为两部分，如图，B是但AC都不是。在这里插入图片描述
那什么是超平面呢？数学意义上是 $w^Tx+b=0,x\in R^n$ ，对于一条线来说，一个点是超平面；对于二维平面来说，一条线就是超平面；对于三位空间来说，一个平面就是超平面（一个大西瓜，一个刀面切两半~）…n维空间来说的超平面是n-1维的。

支持向量机分类

那么接下来我们来聊一聊具体的模型，基本思想：写出优化模型 $\to$ 用拉格朗日乘子法求出对偶问题 $\to$ 聊一聊KKT条件。（求对偶问题及KKT条件不太会的同学可以查一查袁亚湘院士的最优化理论与方法那本书或者直接搜索一下，想深入学数学优化的可以看看王宜举和修乃华老师编的非线性最优化理论与方法那本黄皮书哦~）
我们的分类决策是 $f(x)=sgn(w^Tx+b)$

线性可分之最大化硬间隔模型

什么是线性可分呢？简单来说就是字面意思，真的存在先行超平面能把特征空间上的数据分开。那么怎么分呢？如图，我们想把这个星星和圆圈分开，那么实际上在两条虚线之间的任意一条直线好像都可以做到，但中间这条红线最好，因为他对于数据的扰动包容性最强，专业一点就是最鲁棒的，对未知数据集泛化能力更强。
举个例子，如果我不取红线作为分类决策，而是取穿过红点的虚线作为决策，目前看来也是可以的，但当我们把他用于测试集（未知的新数据）的时候，假设有一个点是红点，离右侧虚线很近，但就是超过了一点点，但我们的决策还是会把它分到蓝色星星里去，这就是分错了！

在这里插入图片描述

所以我们要寻找星星和圆圈到超平面距离最大的那个超平面。那么求间隔就是图上两次平行线之间求距离啦，这里不细推啦哈~直接给出这个距离是
$\gamma=\frac{2}{||w||}$
那么目标就是最大化这个间隔，约束呢就是它要满足能分开这些数据，也就是当 $y_i=1$ 时（比如星星），它要满足 $w^Tx_i+b\ge 1$ ，即在穿过蓝色星星的上面；红色就有 $y_i=-1$ 时 $w^Tx_i+b\le 1$ ，我们写出这个标准的问题：
$\begin{aligned} \max_{w,b} \quad & \frac{2}{||w||}\\ s.t. \quad & y_i(w^Tx_i+b)\ge 1,i=1,\dots,m \end{aligned}$

为了方便，我们变化一下得到SVM的基本模型：
$\begin{aligned} \min_{w,b} \quad & \frac{1}{2}||w||^2\\ s.t. \quad & y_i(w^Tx_i+b)\ge 1,i=1,\dots,m \end{aligned}$

这是一个有约束的凸二次规划模型，我们可以通过对偶去求解，首先写出拉格朗日函数，拉格朗日乘子为 $\mu$ :
$L(w,b,\mu)=\frac{1}{2}||w||^2+\sum^m_{i=1}\mu_i(1-y_i(w^Tx_i+b))$
用其分别对 $w, b$ 求偏导令其为0
$\begin{aligned} \frac{\partial L}{\partial w}&=w-\sum_{i=1}^m\mu_iy_ix_i=0\\ \frac{\partial L}{\partial b}&=\sum_{i=1}^m\mu_iy_i=0 \end{aligned}$

带入到拉格朗日函数中我们就得到了其对偶问题：
$\begin{aligned} \min_{\mu} \quad &\sum_{i=1}^m\sum_{j=1}^m\mu_i\mu_jy_iy_jx_i^Tx_j-\sum_{i=1}^m\mu_i\\ s.t. \quad & \mu_i\ge0,i=1,\dots,m\\ &\sum_{i=1}^m\mu_iy_i=0 \end{aligned}$