支持向量机鸢尾花代码_线性可分支持向量机原理推导

7781b011ef8ea946bef38ce2f7358ea9.png

背景

支持向量机可分为线性可分支持向量机,线性支持向量机以及非线形支持向量机,它们分别对应数据集线性可分,近似线形可分以及线性不可分的情形。这篇文章主要介绍线性可分支持向量机的原理以及公式推导。

对于线性可分数据,线性可分支持向量机模型需要确定一个超平面,使得不同类别的样本分布在超平面的两侧,且具有足够的泛化性能。模型固定类别的取值为

高纬空间中的超平面可由点法式方程表示:

为平面的法向量。

当确定超平面参数

之后,对于新样本
,它的类别由符号函数
决定。在超平面上方,即
,则
为正样本。反之为负样本,

超平面确定准则

对于同一个线性可分数据集,存在无数个超平面可以将正负样本进行完美分割。因此需要一个超平面的确定准则来唯一指定其中一个。

该准则可描述为:选取一个超平面,使得所有样本距该超平面的距离最大,这里的距离是指数据点与超平面之间的 函数间隔或者几何间隔

函数间隔:对于一个样本

,它到超平面的距离可以被衡量为
。 式中的
保证
。这样计算间隔时存在一个缺点,等比例的缩放超平面参数
,超平面不会改变,但是函数间隔
却被等比例的缩放了。几何间隔对此进行了修正。

几何间隔:

,他将超平面的法向量限定为单位向量,样本点到超平面的距离可以被唯一确定。几何间隔和函数间隔之间的关系可以表示为:

支持向量机希望扩大几何间隔

,使得所有数据点距离超平面的距离最少为
。几何间隔越大模型的泛化性能越好。因此确定超平面的过程,可以看作一个关于参数
的优化问题:

其中,满足等式约束,即距离等于

的样本点被称为支持向量。将几何间隔由函数间隔表示,由于函数间隔的取值可变且不影响最优化问题的解,我们将其固定为1:

上述问题可等价变换为:

对于支持向量

。求解上述问题,即可获得最优的超平面参数
,确定分类超平面。

对偶优化算法

引入拉格朗日乘子(对偶变量),上述问题的拉格朗日的函数可表示为:

其中,

。为了降低问题的求解难度,这里通过求解该问题的对偶问题得到原始问题的最优解。原始问题可以表示为:

其对偶问题可表示为:

当原始问题满足一定条件下(原优化目标函数以及不等式约束函数是凸函数,等式约束为防仿射函数,且不等式约束严格可行),可以通过求解对偶问题的解来得到原始问题的解。

Step 1. 求解

,该问题是凸二次规划问题,在函数梯度为零处获得极值。

将上式带入拉格朗日函数替换

,可以得到该问题封闭形式的解:

给定一个

,
的最小值由上式给出。当对偶变量的最优解为
时,我们得到原始问题的最优解
(可由KKT条件证明):

对于某一个支持向量

,满足等式约束:
,即:

Step 2.求解

,该问题可以表示为:

将最大化问题转化为最小化问题,其等价描述为:

线性可分支持向量机的超平面确定

首先求解Step2问题,得到对偶变量的的最优解

。将
带入到Step1,求解出
,即可得到超平面参数。对于一个新样本,其类别由符号函数
确定。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值