SVM 原理推导

本文详细介绍了SVM(支持向量机)的基本原理,包括其作为分类器的目标是找到最大化间隔的超平面,以及通过拉格朗日乘子法和KKT条件求解问题。此外,还探讨了软间隔SVM的概念,允许一定的误差以提高模型的泛化能力。最后,文章强调理解SVM的理论基础对于避免过拟合和构建高质量模型的重要性。
摘要由CSDN通过智能技术生成

介绍

这篇博文写一些SVM的东西,首先的先对SVM原理做一个概述,之后对整个证明过程做一个梳理

SVM 原理

SVM旨在解决一系列分类问题。我们从几何意义来考虑分类问题的话,首先每一类都是多维空间的一个点,分类器就是在这个空间中中找到一个可以将每一类数据点分割开的超平面。比如果最简单的使用线性回归一类算法去寻找分类面,SVM同样是寻找分类面。在点数一定的情况下,分类面不只是有一个面,有很多个面的存在,所以我们在寻找这些面的时候,需要找一个泛化能力最好的面,那么这个时候,我们就需要考虑每个点到分类面的间隔。最好的分类面,代表间隔最大,也就是离分类面的最近的点的距离,是其他分类面中最大的。
为什么呢?我可以思考一个过拟合的问题,数据中存在的error或者说noise是普遍存在的,我们如果去拟合这些点,就会发生过拟合的问题,为了减量避免这种情况造成的影响,我们需要找一个最不可能拟合噪声的平面,这样的在测试集,验证集上的表现不至于太差。
那么原理不太难,接下来就需要用数学定义表达式,并且一步步推导求解的过程

SVM推导概述

SVM推导的过程比较复杂,原因是SVM对目标函数做的一步步简化十分精妙,虽然使得整个过程难以理解,但是一旦理解其中蕴含,一定对SVM有更深入理解
整个过程大致分为三个部分:间隔(基本定义),对偶(进一步优化),核方法(优化求解空间),整个优化的过程还涉及到拉格朗日乘子法,函数的对偶,KKT条件等知识,SVM作为一个抛砖引玉的作用,让我们对优化方法能有更多的见解。

我们先考虑再二维空间点的分类,我们先来尝试看SVM的数学定义
max ⁡ w , b m a r g i n ( w , b ) s . t . ∀ i = 1 → N y i ( w t x i + b ) > 0 \max_{w,b} margin(w,b)\\s.t. \forall i=1 \to N \\y_i(w^tx_i+b) > 0 w,bmaxmargin(w,b)s.t.i=1Nyi(wtxi+b)>0
条件很好理解,就是我希望每个点都是正确的,间隔我们利用数学语言描述如下:
m a r g i n ( w , b ) → min ⁡ x i 1 ∣ ∣ w ∣ ∣ ∣ w T x i + b ∣ margin(w,b) \to \min_{x_i}{1 \over ||w||}|w^Tx_i+b| margin(w,b)ximinw1wTxi+b
其中 1 ∣ ∣ w ∣ ∣ ∣ w T x i + b ∣ {1 \over ||w||}|w^Tx_i+b| w1wTxi+b代表点 x i x_i xi到分界面的距离
那么SVM最基本的式子可以写成:
max ⁡ w , b   min ⁡ x i   1 ∣ ∣ w ∣ ∣ ∣ w T x i + b ∣ s . t .   y i ( W T x i + b ) > 0 (1.1) \max_{w,b} \ \min_{x_i} \ {1 \over ||w||}|w^Tx_i+b| \\ \mathrm{ s.t. } \ y_i(W^Tx_i+b) > 0\tag{1.1} w,bmax ximin w1wTxi+bs.t. yi(WTxi+b)>0(1.1)
接着这个式子进行推导,首先观察条件 y i ( w T x i + b ) > 0 y_i(w^Tx_i+b) > 0 yi(wTxi+b)>0,可以发现推论1
∃ γ > 0   min ⁡ w , b , x i , i = 1... N y i ( w T + b ) = γ \exist \gamma > 0 \ \min_{w,b,x_i,i=1...N} y_i(w^T+b)=\gamma γ>0 w,b,xi,i=1...Nminyi(w

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值