带你搞懂支持向量机SVM算法原理

最新推荐文章于 2024-08-03 18:21:56 发布

akirameiao

最新推荐文章于 2024-08-03 18:21:56 发布

阅读量4.6k

点赞数 8

分类专栏：机器学习文章标签：机器学习支持向量机 python SVM 分类算法

本文链接：https://blog.csdn.net/akirameiao/article/details/79451306

版权

本文深入浅出地介绍了支持向量机（SVM）的基本原理，包括线性可分、线性和非线性SVM。通过对原始算法和对偶算法的解析，详细阐述了SVM如何找到最优超平面进行数据分类。同时，讨论了软间隔和支持向量的概念，以及核函数在处理非线性问题中的作用。SVM是机器学习中的重要分类算法，适合于处理线性或非线性数据。

摘要由CSDN通过智能技术生成

感知机是SVM的基础，详细介绍请戳http://blog.csdn.net/akirameiao/article/details/79436859

一、原理

1. 线性可分支持向量机

问题的输入输出
X = { $x_1,x_2,...,x_n$ }
Y = {+1, -1}

模型：
感知机的目的是找到一个可以正确分类数据的超平面S： $\omega\cdot x+b=0$ , 得到感知机模型 $f(x)=sign(\omega\cdot x+b)$ ，其中 $\omega\cdot x+b>0$ 为正类， $\omega\cdot x+b<0$ 为负类。SVM和感知机最大的差别就是SVM寻找的间隔最大的超平面，所谓间隔，可以理解为实例点到超平面最小的距离，所以SVM找的是把数据正确分隔的”最开”的超平面。

间隔
函数间隔：对于给定的训练数据集T和超平面( $\omega,b$ )，定义超平面关于样本点( $x_i,y_i$ )的函数间隔为 $\hat\gamma_i=y_i(\omega\cdot x_i+b)$
几何间隔：对于给定的训练数据集T和超平面( $\omega,b$ )，定义超平面关于样本点( $x_i,y_i$ )的几何间隔为 $\gamma_i=\frac {1}{||\omega||}y_i(\omega\cdot x_i+b)=\frac{\hat\gamma_i}{||\omega||}$

所以我们可以建立模型：

输入: $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_i,y_i)\}$
输出: 分离超平面： $\omega \cdot x+b=0$ 决策函数： $f(x)=sign(\omega \cdot x+b)$

策略：
接下来的问题就是找到间隔最大的超平面，记超平面关于实例点的的几何间隔【 $\frac {1}{||\omega||}y_i(\omega\cdot x_i+b)\geq\gamma_i$ 】, 定义超平面关于所有实例点的几何间隔为【 $\gamma=max\gamma_i$ 】, 则问题就可以写成【 $max_{\omega,b}\gamma$ ， $s.t. y_i(\omega \cdot x_i+b)\geq\gamma_i$ 】
有几何间隔和函数间隔的关系，问题可以改写为【 $max\frac{\hat\gamma}{||\omega||}$ 】【 $s.t. y_i(\omega\cdot x_i+b)\geq\hat\gamma, i=1,2,\cdots,N$ 】
由于同时成比例的改变 $\omega$ 和 b ，不会影响超平面的位置，也不会影响不等式约束和目标函数的优化，可以令【 $\hat\gamma=1$ 】,为了求解的方便，把优化目标改成： $min\frac{1}{2}||\omega||^2$ ，约束条件改成 $y_i(\omega\cdot x_i+b)-1\geq0, i=1,2,\cdots,N$