SVM支持向量机的推导(非常详细)

SVM支持向量机的推导(非常详细)

参考自(https://www.zhihu.com/search?q=svm%E6%8E%A8%E5%AF%BC&utm_content=search_suggestion&type=content)
还有李航的统计学习。
这个总结也不错
这里还有三个讲的超级详细的链接:
链接一
链接二
链接三

支持向量机有三个部分的内容,线性可分支持向量机,软间隔支持向量机,核函数。

目标函数的得出

首先SVM是一个线性分类器,SVM的目标就是找到最大间隔超平面。
我们定义任意的超平面函数为:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
看上面的图,最中间的那条线就是(这里的w*就是上面的Wt):(虽然很直观,但是为什么呢?你怎么知道最中间的那个平面就是下面这个表达式呢?其实很简单,因为在这个最中间的平面一边都是大于零的点,另一边都是小于零的点,所以这个平面自然就是下面这个表达式了。)
在这里插入图片描述
而我们要求的分类决策函数就是:
在这里插入图片描述
这个就是线性可分支持向量机。

所以假设点到平面的距离为r,有下面的公式:
在这里插入图片描述
这个我们称为函数间隔,这是我们要求的函数形式,但是不是实际意义上的几何间隔。所以我们将函数间隔和几何间隔进行转化,我们的目标就是要最大化这个间隔。
在这里插入图片描述
在这里插入图片描述
(这里y的值为1或者是-1,所以上式必然成立。)
上面这个就是几何间隔。所以我们可以轻易得到几何间隔与函数间隔之间的关系:
在这里插入图片描述
接下来就有了我们初步的优化函数:(这里有一个直觉上的逻辑,w是分割平面的法向量,所以我们求得就是当这个法向量接近垂直于所有与平面平行的向量的值)
在这里插入图片描述
利用上面几何间隔和函数间隔之间的转化公式可有下面的式子:
在这里插入图片描述
(这里插一句,逻辑因该是从几何间隔推导出函数间隔,那么既然几何间隔可以很好的度量支持向量之间的绝对距离,那么我们为什么要用函数间隔呢。原因是由于几何间隔在进行梯度下降算法的时候太复杂了,分子分母都涉及到未知数,所以我们采用函数间隔的相对距离来定义支持向量之间的距离)
又因为最小化1/||w||可以转化为求最大化1/2 *||w||,1/2的作用就是为了求导消除计算方便。所以有了下面最终的目标函数:
在这里插入图片描述
写了这个一大堆其实完全没必要。。。。。看一下下面这张图,这里我们假设r=1,所以两个平面的距离自然就是下面的2/||w||了。
在这里插入图片描述
这里r=1完全是为了计算方便,因为r的取值并不会影响最后的目标函数的优化。

拉格朗日求极值

对于这个优化我们自然能够想到用拉格朗日求极值。
在这里插入图片描述
但是再进行真正的求极值时,我们需要考虑一些不等式约束优化的问题。

不等式优化的步骤:(KKT条件的推导)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
现在我们的目标函数如下:(这里的α就是上面推导过程中的λ)
在这里插入图片描述
由拉格朗日的对偶性,上面问题等价于求:
在这里插入图片描述
其中:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
我们可以看出来这是一个二次规划问题,问题规模正比于训练样本数,我们常用 SMO(Sequential Minimal Optimization) 算法求解。

序列最小优化(Sequential Minimal Optimiation, SMO)算法

SMO(Sequential Minimal Optimization),序列最小优化算法,其核心思想非常简单:每次只优化一个参数,其他参数先固定住,仅求当前这个优化参数的极值。我们来看一下 SMO 算法在 SVM 中的应用。
在这里插入图片描述
这就是SMO算法的步骤。
根据SMO算法我们可以求得:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
至此,基本的线性SVM就已经求完了。下面的软间隔和核函数基本原理跟上面一致。

几个问题:

在这里插入图片描述
Q12:SVM只关注支持向量,是不是就意味着SVM的计算量会减少呢?

答案必须是否定的。如果还不清楚,我想问大家一个问题,我们怎样得到的支持向量,是不是从所有的样本点中得到的?假如SVM将支持向量的筛选工作也考虑进去,计算量还会小吗?

Q13:SVM和逻辑回归有没有一些内在的联系?

先看看SVM和逻辑回归的效果对比,如下图所示,蓝色的先表示SVM得到的决策边界,红色的先表示逻辑回归得到的决策边界,由此可见两种方法得到的结果是非常接近的。为什么会出现这种情况呢?
在这里插入图片描述
在这里插入图片描述

软间隔最大化

在这里插入图片描述
在这里插入图片描述
转化为对偶问题:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
惩罚参数C的讨论:
对于不同的惩罚参数C,SVM的结果如下图所示:(从左到右分别是C=100,C=1,C=0.01)
在这里插入图片描述
在这里插入图片描述
前一项可以理解为“结构风险(structural risk)”,用来描述所求模型的某些性质(SVM就是要求间隔最大);第二项称为“经验风险(empirical risk)”,用来描述模型与训练数据的契合程度(即误差)。而参数C就是用于对二者的折中,即我们一方面要求模型要满足某种性质另一方面又想使模型与训练数据很契合。
在这里插入图片描述

非线性SVM——核技巧

前面介绍的都是线性问题,但是我们经常会遇到非线性的问题(例如异或问题),此时就需要用到核技巧(kernel trick)将线性支持向量机推广到非线性支持向量机。需要注意的是,不仅仅是SVM,很多线性模型都可以用核技巧推广到非线性模型,例如核线性判别分析(KLDA)。

如下图所示,核技巧的基本思路分为两步:使用一个变换将原空间的数据映射到新空间(例如更高维甚至无穷维的空间);然后在新空间里用线性方法从训练数据中学习得到模型。
在这里插入图片描述
在这里插入图片描述
我们不禁有个疑问:只是做个内积运算,为什么要有核函数的呢?

这是因为低维空间映射到高维空间后维度可能会很大,如果将全部样本的点乘全部计算好,这样的计算量太大了。
在这里插入图片描述
然后在进行内积计算,才能与多项式核函数达到相同的效果。

可见核函数的引入一方面减少了我们计算量,另一方面也减少了我们存储数据的内存使用量。
常见核函数:
在这里插入图片描述
优点:
1、有严格的数学理论支持,可解释性强,不依靠统计方法,从而简化了通常的分类和回归问题;
2、能找出对任务至关重要的关键样本(即:支持向量);
3、采用核技巧之后,可以处理非线性分类/回归任务;
4、最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。

缺点:
在这里插入图片描述

  • 4
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
支持向量机(Support Vector Machine,SVM)是一种常用的机器学习算法,用于分类和回归问题。其原理公式推导如下: 1. 线性可分支持向量机: 假设我们有一个训练数据集,其中包含一些正例和负例样本。我们的目标是找到一个超平面,将正例和负例样本分开。超平面可以表示为 wx + b = 0,其中 w 是法向量,b 是偏置项。 对于正例样本,我们希望满足 wx + b ≥ 1,对于负例样本,我们希望满足 wx + b ≤ -1。这两个约束条件可以合并为一个约束条件:yi(wx + b) ≥ 1,其中 yi 是样本的标签(1 表示正例,-1 表示负例)。 我们的目标是找到一个最大间隔的超平面,使得所有样本点到该超平面的距离都大于等于1。这可以转化为一个优化问题,即最小化 ||w||^2/2,同时满足约束条件 yi(wx + b) ≥ 1。 通过拉格朗日乘子法,我们可以得到拉格朗日函数 L(w, b, α) = ||w||^2/2 - Σαi[yi(wx + b) - 1],其中 α 是拉格朗日乘子。 最终,我们需要求解的是关于 w 和 b 的最小化问题,可以通过对拉格朗日函数求偏导数并令其等于零来得到最优解。 2. 非线性支持向量机: 在现实问题中,数据往往不是线性可分的。为了解决这个问题,我们可以使用核函数将数据映射到高维空间,使其在高维空间中线性可分。 核函数可以定义为 K(xi, xj) = φ(xi)·φ(xj),其中 φ 是将数据映射到高维空间的函数。 在非线性支持向量机中,我们的目标是找到一个最大间隔的超平面,使得所有样本点到该超平面的距离都大于等于1。这可以转化为一个优化问题,即最小化 ||w||^2/2,同时满足约束条件 yi(wx + b) ≥ 1。 通过拉格朗日乘子法,我们可以得到拉格朗日函数 L(w, b, α) = ||w||^2/2 - Σαi[yi(wx + b) - 1],其中 α 是拉格朗日乘子。 最终,我们需要求解的是关于 w 和 b 的最小化问题,可以通过对拉格朗日函数求偏导数并令其等于零来得到最优解。 以上是支持向量机的原理公式推导
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值