SVM学习笔记（一）

最新推荐文章于 2025-03-09 11:21:08 发布

江湖影

最新推荐文章于 2025-03-09 11:21:08 发布

阅读量3.8k

点赞数 1

分类专栏：机器学习文章标签：大数据机器学习 SVM 支持向量机学习笔记

本文链接：https://blog.csdn.net/chunxiao2008/article/details/50266025

版权

SVM（支持向量机）是一种有效的分类算法，以其最大间隔分类器的特性著称。它寻找离两类数据点最远的分界线，以增强模型对数据扰动的鲁棒性。在处理线性可分问题时，SVM通过间隔最大化来优化模型。对于非线性问题，SVM采用核函数将数据映射到高维空间使其变得可分。常用核函数包括高斯核、多项式核和线性核。核函数的本质在于在低维空间进行计算，实现在高维空间的分类效果，从而避免直接在高维空间的复杂计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

支持向量机即Support Vector Machine，简称SVM。一听这个名字，就有眩晕的感觉。支持(Support)、向量(Vector)、机器(Machine)，这三个毫无关联的词，硬生生地凑在了一起。从修辞的角度，这个合成词最终落脚到”Machine”上，还以为是一种牛X的机器呢？实际上，它是一种算法，是效果最好的分类算法之一。
SVM是最大间隔分类器，它能很好地处理线性可分的问题，并可推广到非线性问题。实际使用的时候，还需要考虑噪音的问题。
本文只是一篇学习笔记，主要参考了July、pluskid等人相关文章。将要点记录下来，促进自己的进步。

SVM是最大间隔分类器

既然SVM是用来分类的，咱就举个简单的例子，看看这个SVM有啥特点。如下图所示，有一个二维平面，平面上有两种不同的数据，分别用圈和叉表示。由于这些数据是线性可分的，可以用一条直线将这两个数据分开，这样的直线可以有无数条。
大间隔分类器
绿线、粉红线、黑线都能将两类区分开。但是那种更好呢？感觉上黑线似乎更好些。粉红线和绿线都离样本太近。要是样本或分界线稍稍有些扰动，分类就可能出错。黑线好就好在离两类都有一个安全间隔（蓝线与黑线间的间隔），即使有些扰动，分类还是准确的。这个安全间隔，也就是“Margin”，当然我们觉得间隔越大分类越准确。
这种分类思想该作何理解呢，他和逻辑回归的分类有何区别呢？
当用逻辑回归的思想来处理分类问题时(将数据分成正负两类:正类y=1，负类y=0)。逻辑回归函数反映的是数据是正类的概率，当这个概率大于0.5时，预测这个数据是正类，反之，小于0.5时，预测这个数据是负类。它优化的目标是预测出错的概率越小越好。可以参看这里
SVM则不同，它要找出一条离两类都有一定安全间隔的分界线（专业点叫超平面）。优化的目标就是安全间隔越大越好。
因此，SVM也被叫做最大间隔分类器。