SVM 支持向量机

支持向量机(SVM)是一种通过寻找最佳超平面进行线性分类的机器学习算法。本文介绍了SVM的基本概念,包括线性可分数据的定义,以及如何确定最佳超平面。此外,文章还探讨了SVM的数学描述,包括约束条件、目标函数和性能指标,并指出SVM在解决小规模数据集时效果良好,但在大规模数据上因计算复杂度较高而不常用。
摘要由CSDN通过智能技术生成

支持向量机(SVM)

一、基本概念

​ 支持向量机算法就是在一堆线性可分数据中寻找到一条直线(二维)或者一个平面(三维)或者一个超平面(三维以上),使得可以将不同的样本数据分割开来。

在这里插入图片描述

二、线性可分

什么样的数据是线性可分的数据

  1. 首先我们假设要讨论的数据集为 ( X ⃗ , y ) (\vec{X},y) (X ,y),其中 X ⃗ \vec{X} X 是具有n维属性的向量, y y y为样本的标签,这里设置为 ± 1 \pm1 ±1(方便后续的推导过程)

  2. 假设存在一个超平面 ( W ⃗ , b ) (\vec{W},b) (W ,b),这里 W ⃗ \vec{W} W 是具有和 X ⃗ \vec{X} X 相同维度的系数向量, b b b为偏置

基于上面的假设,我们有以下结论:

  • i f ( y i = = 1 ) : W T ⃗ X i ⃗ + b > 0 ( 公 式 1 ) if(y_i==1):\vec{W^T}\vec{X_i}+b>0\qquad (公式1) if(yi==1):WT Xi +b>0(1)

  • i f ( y i = = − 1 ) : W T ⃗ X i ⃗ + b < 0 ( 公 式 2 ) if(y_i==-1):\vec{W^T}\vec{X_i}+b<0\qquad(公式2) if(yi==1):WT Xi +b<0(2)

则我们称此数据集是线性可分的

由公式1和公式2,我们可以推导出一个更加简洁的式子:

  • y i ( W T ⃗ X i ⃗ + b ) > 0 ( 公 式 3 ) y_i(\vec{W^T}\vec{X_i}+b)>0\qquad(公式3) yi(WT Xi +b)>0(3)

如何寻找最佳超平面

​ 能够将线性可分数据分开的直线(超平面)有无数个,但是不同直线(超平面)对于数据的鲁棒性不同。

在这里插入图片描述

​ 简单来说就是对于数据的容错性大小不同,如图所示,加入有一个红色样本点移动到箭头所示位置,则红线无法完美分开数据,同理蓝色直线。

​ 而绿色直线因为距离两侧数据的距离之和达到最大,具有较好的鲁棒性(健壮性),因此就这幅图来说,绿线是最好的分割线(超平面)。

性能指标

​ 从上面的简单示例中大家可以发现为了寻找到最优直线,我们有必要定义一个性能指标,最优直线就是性能指标最大的直线。

​ 我们定义分割超平面到两侧支持向量(支撑向量)的距离为margin,最优超平面就是margin最大的超平面。

  • 支持向量:

    我们首先在两个样本集之间任取一个超平面,将超平面分别向两侧样本集平行靠近,最先穿过的样本点我们成为支持向量。

在这里插入图片描述

二、数学描述

​ 要进行数学推导之前我们要先说明两个事实:

  • **事实1:**平面 W T ⃗ X i ⃗ + b = 0 \vec{W^T}\vec{X_i}+b=0 WT Xi +b=0,则 a W T ⃗ X i ⃗ + a b = 0 a\vec{W^T}\vec{X_i}+ab=0 aWT Xi +ab=0,其中 a ϵ R + a\epsilon R^+ aϵR+

  • **事实2:**点 ( X i ⃗ , y i ) (\vec{X_i},y_i) (Xi ,yi)到直线 ( W ⃗ , b ) (\vec{W},b) (W ,b)距离公式为:
    ∣ W T ⃗ X i ⃗ + b ∣ w 1 2 + w 2 2 + w 3 2 + . . . . . + w n 2 = ∣ W T ⃗ X i ⃗ + b ∣ ‖ W T ⃗ ‖ ( 公 式 4 ) \frac{|\vec{W^T}\vec{X_i}+b|}{\sqrt{w_1^2+w_2^2+w_3^2+.....+w_n^2} }=\frac{|\vec{W^T}\vec{X_i}+b|}{‖\vec{W^T}‖}\qquad(公式4) w12+w22+w32+.....+wn2 WT Xi +b=WT

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值