数据挖掘算法之支持向量机（SVM）（一）

最新推荐文章于 2024-06-11 11:57:42 发布

山海王子

最新推荐文章于 2024-06-11 11:57:42 发布

阅读量1.1k

点赞数

分类专栏：数据挖掘文章标签：支持向量机机器学习算法 svm

本文链接：https://blog.csdn.net/shanhai3000/article/details/107423226

版权

本文深入探讨支持向量机（SVM），包括SVM的基本概念、线性可分支持向量机的原理，如函数间隔、几何间隔和间隔最大化。通过凸二次规划解决最大间隔超平面的寻找问题，为后续的软间隔分类器和非线性问题的核方法奠定基础。

摘要由CSDN通过智能技术生成

SVM简介

支持向量机（SVM）是在所有知名数据挖掘算法中最健壮、最准确的方法之一，主要包括支持向量的分类器（SVC）、支持向量回归（SVR）。SVM算法之所以有如此大的影响，是因为该方法有坚实的统计学理论基础。
本文将分三篇，由浅入深分别介绍针对线性问题的硬间隔分类器、近似线性问题的软间隔分类器和针对非线性问题的核方法。

线性可分支持向量机

对于两类线性可分问题，SVC要找到一个最优的决策边界，通过硬间隔最大化，找到一个线性分类器。SVC算法假定距离两类样本长度最大的边界是最优的决策边界，即距离两类样本的（硬）间隔（Margin）最大，最大间隔能保证该超平面具有最好的泛化性能，因此SVM算法也称为最大（硬）间隔分类算法。
所谓硬间隔：即将训练样本完全分开，不容有差。
在这里插入图片描述
直观上看，间隔就是两个类之间的空间距离或超平面所确定的分离程度。从几何上讲，间隔对应于数据点到超平面的最短距离。最优超平面到两边的最近的样本点之间的距离就是margin，而位于margin上的样本点，就是支持向量的候选集，这也是支持向量机的由来。
对于线性可分问题，有无穷个超平面作为决策边界，但最优超平面只有一个。我们假定x为最优超平面上margin上的样本，令w为最优超平面的法向量，b表示最优超平面的偏移量，其中法向量指向正例的方向，则相应的最优超平面可以被定义为：
$w^T*x+b=0$
这适用于任意n维空间的超平面的计算。
对应的分类决策函数为：
在这里插入图片描述
其中sing为符号函数，表示正例是为1，反例为-1。

函数间隔和几何间隔

一个样本点距离超平面的距离长度可以反映出分类预测的确信程度，如果一个正例样本距离超平面很远，且与法向量方向相同（方向相同则距离为正，反之距离为负），则该样本为正样本的概率就大，反之亦然。因此，我们可以使用 $w^T*x+b｜$ 来相对地反映样本到超平面的距离。通过符号函数的结果与标签y的符号是否一致，可以表示分类是否正确。
因此，可以使用 $y_i*(w^Tx+b)$ 来表示分类预测的正确性和确信度，这就是函数间隔的概念，即：
定义超平面 $(w, b)$ 关于训练数据集T的函数间隔为，超平面

最低0.47元/天解锁文章

山海王子

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘算法之支持向量机（SVM）（一）

支持向量机SVM（一）----硬间隔分类器SVM简介线性可分支持向量机函数间隔和几何间隔间隔最大化凸二次规划SVM简介支持向量机（SVM）是在所有知名数据挖掘算法中最健壮、最准确的方法之一，主要包括支持向量的分类器（SVC）、支持向量回归（SVR）。SVM算法之所以有如此大的影响，是因为该方法有坚实的统计学理论基础。本文将分三篇，由浅入深分别介绍针对线性问题的硬间隔分类器、近似线性问题的软间隔分类器和针对非线性问题的核方法。线性可分支持向量机对于两类线性可分问题，SVC要找到一个最优的决策边界，通
复制链接

扫一扫