机器学习:线性SVM转换拉格朗日对偶函数和决策函数

拉格朗日函数转换为拉格朗日对偶函数

Why need

求极值,最简单的方法还是对参数求导后让一阶导数等于0。先来试试对拉格朗日函数求极值,在这里对参数向量和截距分别求偏导并且让他们等于0。这个求导过程比较简单:
在这里插入图片描述
在这里插入图片描述
由于两个求偏导结果中都带有未知的拉格朗日乘数αi,因此还是无法求解出ω和b,必须想出一种方法来求解拉格朗日乘数αi。幸运地是,拉格朗日函数可以被转换成一种只带αi,不带ω和b的形式,这种形式被称为拉格朗日对偶函数。在对偶函数下,就可以求解出拉格朗日乘数,
然后带入到上面推导出的(1)和(2)式中来求解ω和b。

Why can

对于任何一个拉格朗日函数 L ( x , α ) = f ( x ) + ∑ i = 1 q α i h i ( x ) L(x,α)=f(x)+\sum_{i=1}^qα_ih_i(x) L(x,α)=f(x)+i=1qαihi(x),都存在一个与它对应的对偶函数g(α),只带有拉格朗日乘数α作为唯一参数。如果L(x,α)的最优解存在并可以表示为minxL(x,α),并且对偶函数的最优解也存在并可以表示为maxαg(α),则可以定义对偶差异(dual gap),即拉格朗日函数的最优解与其对偶函数的最优解之间的差值
Δ = m i n x L ( x , α ) − m a x α g ( α ) \Delta=min_xL(x,α)-max_αg(α) Δ=minxL(x,α)maxαg(α)
如果Δ=0,则称L(x,α)与其对偶函数g(α)之间存在强对偶关系(strong duality property),可以通过求解其对偶函数的最优解来替代求解原始函数的最优解。强对偶关系存在的条件:这个拉格朗日函数必须满足KKT(Karush-Kuhn-Tucker)条件(在优化理论中,KKT条件是非线性规划(nonlinear programming)最佳解的必要条件):
在这里插入图片描述
这里的条件其实都比较好理解。首先是所有参数的一阶导数必须为0,然后约束条件中的函数本身需要小于等于0,拉格朗日乘数需要大于等于0,以及约束条件乘以拉格朗日乘数必须等于0,即不同的取值下,两者之中至少有一个为0。当所有限制都被满足,则拉格朗日函数L(x,α)的最优解与其对偶函数的最优解相等,就可以将原始的最优化问题转换成为对偶函数的最优化问题。
不难注意到,对于损失函数L(ω,b,α)而言,KKT条件都是可以操作的。如果能够人为让KKT条件全部成立,就可以求解出L(ω,b,α)的对偶函数来解出α。
之前我们已经让拉格朗日函数上对参数w和b的求导为0,得到了式子:
∑ i = 1 N α i y i x i = ω ( 1 ) \sum_{i=1}^Nα_iy_i\boldsymbol{x_i=ω}\quad (1) i=1

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值