支持向量机

new60ll

已于 2024-08-04 00:03:43 修改

阅读量998

点赞数 10

分类专栏：机器学习文章标签：机器学习 svm 支持向量机

于 2024-08-03 18:21:56 首次发布

本文链接：https://blog.csdn.net/2301_76697053/article/details/140893126

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

什么是SVM？

支持向量机是一种监督学习算法，主要用于分类和回归任务。它通过找到数据点之间的最优边界（称为超平面）来进行分类，这一边界能够最大化不同类别之间的间隔。

分类原理

支持向量机（support vector machines，SVM）是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器。支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题。支持向量机的主要方法是：多维空间中，在最大化最小间隔的基础上，通过不断更新参数，求得一个最优超平面来进行分类。此时，超平面分割两个类别的距离达到最大值，且该超平面是唯一存在的。下图为通过超平面划分的支持向量机的示意图：

如图，其中虚线上的点就算支持向量，它们是到超平面最近的点，两条虚线H1，H2之间的距离称为间隔，该间隔依赖于法向量w，等于 $\frac{2}{||w||}$ 。实线就是分离超平面，其公式为：

$w^{T}x+b=0$

其中w=(w1，w2，w3，…wn)是支持向量机中切割超平面进行划分的法向量。定义向量空间中每个点到超平面的几何间隔和最小几何间隔分别为：

$r_i=y_i (\frac{w}{||w||} *x_i+\frac{b}{||w||} )$

$r_i = \underset{i=1,...N}{min}r_i$

如果超平面能将训练样本正确分类，对于某个样本点，若则有；若，则有。于是对于分类正确的样本点，有

$y_i(w^Tx+b)\geq 1$

通过最大化最小间隔，并保证正确分类的情况下，构造出了如下模型：

$\underset{w,b}{min}\frac{1}{2}||w||^2$

$y_i(w\cdot x_i+b)\geq 1,i=1,2,...N$

通过上述模型求得最优解w*，b*，即可求得分离超平面。

回归原理

支持向量回归（Support Vector Regression, SVR）是一种基于支持向量机（SVM）发展起来的回归分析方法。与SVM用于分类问题不同，SVR主要用于解决回归问题。SVR的核心思想是在特征空间中找到一个最优超平面，使得所有数据点尽可能接近该超平面，并且误差在一个容忍范围内。

SVR通过引入损失函数和松弛变量来实现对误差的控制。具体来说，SVR的目标是找到一个函数：

$f(x)=w^T x+b$

使得对于所有的训练数据点(xi,yi)，预测值f(xi)与真实值yi之间的误差不超过一个给定的阈值ϵ，即满足条件：

$|y_i-f(x_i )|\leq \varepsilon$

如果误差超过 𝜖，则会引入松弛变量 ξi 和 ξi*来度量超过部分。

SVR的优化目标可以表示为：

其中，C是一个常数，表示对误差的惩罚程度；ξi 和ξi*是松弛变量，用于允许部分数据点的预测误差超过ϵ。

通过上述优化问题，SVR能够求得最优的参数 𝑤 和 𝑏，从而得到一个回归模型，该模型在保证尽可能小的误差的同时，也保持了模型的简洁性和鲁棒性。SVR在处理高维数据和非线性回归问题时表现尤为突出，常常通过引入核函数将非线性问题转换为线性问题来解决。

SVM与SVR的区别在于：SVM是最大化分类间隔。SVM 的目标是找到一个能将数据点准确分类且间隔最大的超平面；SVR是最小化回归误差。SVR 的目标是找到一个回归函数，使得大多数数据点的预测误差在 epsilon 范围内，并且在允许误差超过 epsilon 的情况下，惩罚这些超出误差的点。下图展示了SVM与SVR的差别。

基本原理

找到一个决策边界，使边界间隔最大。

间隔（Margin）：数据点到决策边界的最近距离。
支持向量（Support Vectors）：距离决策边界最近的那些点，它们决定了超平面的位置和方向。

支持向量到决策边界的距离最小的点。SVM核心就是优化决策超平面参数，使支持向量到超平面的距离最大。

模型策略算法：

线性SVM（软间隔，硬间隔）

•模型： $w*x+b^*=0$ 学习参数

• 策略： 最小距离最大化 带约束条件的优化问题求解（由 KKT 条件转化为对偶问题求解）

• 算法： SMO 算法实现

SVM的分类

线性SVM：适用于线性可分数据集。

硬间隔：完全可分

软间隔：不完全可分

注意：C>0

1.样本不满足约束的程度越低越好

2.每一个松弛变量对应一个代价

3.间隔尽可能大，同时样本被误分类的程度尽可能低

4.参数𝐶控制间隔和松弛变量惩罚项之间的平衡，𝐶越大，对误分类的惩罚越大， $||w||^2$ 越大，间隔越小

非线性SVM：通过核函数处理非线性可分数据集。

如：《机器学习基础：从入门到求职》书中例图

SVM-Python-sklearn

class sklearn.svm.SVC( C=1.0, # 错误样本的惩罚参数 kernel='rbf', # 使用何种核算法。
linear线性、poly多项式、rbf高斯、sigmod、precomputed自定义 degree=3, # 多项式核函
数的阶数 gamma='auto', # 当kernel为‘rbf’, ‘poly’或‘sigmoid’时的kernel系数。
1/n_features coef0=0.0, # kernel函数的常数项。 shrinking=True, probability=False, # 是否
估计概率。会增加计算时间 tol=0.001, # 误差项达到指定值时则停止训练，默认为0.001
cache_size=200, class_weight=None, verbose=False, max_iter=-1,
decision_function_shape='ovr', random_state=None )