机器学习入门(十五):SVM——对偶学习算法

本文介绍了SVM的对偶问题,从主问题出发,通过引入拉格朗日乘子构造拉格朗日函数,探讨了强对偶性和求解对偶问题的条件。在证明线性可分SVM具有强对偶性后,详细阐述了使用对偶算法求解线性可分SVM的步骤,包括构造拉格朗日函数、求解α的极大值等,并简要提及了SMO算法的作用。
摘要由CSDN通过智能技术生成

对偶问题

上一篇我们用 x 和 y 各代表一个维度,用 z=f(x,y) 和 g(x,y)=0 分别代表一个二元函数和一个一元函数。这样做是为了和图形对比的时候能看得清楚,为了可视化方便。

一般情况下,我们就用 x 代表一个函数的自变量。这个 x 本身可以是多维的。

而且,同一个函数可能同时既有等式约束条件,又有不等式约束条件。

主问题

现在我们考虑在 d 维空间上有 m 个等式约束条件和 n 个不等式约束条件的极小化问题。这样的问题可以写作:

minf(x),其中x为d维。

s.t.hi(x)=0,i=1,2,…,m;gj(x)⩽0,j=1,2,…,n

我们把上述问题称为“原始最优化问题”,也可以叫做“原始问题”或“主问题”。

为了解决原始问题,我们引入拉格朗日乘子 λ=(λ1,λ2,…,λm)T 和 μ=(μ1,μ2,…,μn)T,构造拉格朗日函数为:

L(x,λ,μ)=f(x)+∑mi=1λihi(x)+∑nj=1μjgj(x)

然后,再设:

Γ(λ,μ)=infx∈D(f(x)+∑mi=1λihi(x)+∑nj=1μjgj(x))

其中,x∈D,D 为主问题可行域;inf(L) 表示 L 函数的下确界,inf(L(x,λ,μ)) 表示小于或者等于 L(x,λ,μ) 的极大值。

hi(x)=0,因此对于任意 λi,必然有:

∑mi=1λihi(x)=0, 其中 i=1,2,…,m。

又因为 gj(x)⩽0,因此对于 μj 均为非负的情况:μj⩾0,必然有:

∑nj=1μjgj(x)⩽0, 其中 j=1,2,…,n。

假设 ^x 是主问题可行域中的一个点,则对于任意 μj⩾0,j=1,2,…,n 和任意 λi,i=1,2,…,m,有:

Γ(λ,μ)⩽L(^x,λ,μ)⩽f(^x)

我们假设主问题的最优解是 p∗,也就是说 p∗ 是 f(^x) 所有取值中极小的那个。

又因为所有 ^x 对于任意 μj⩾0,j=1,2,…,n 和任意 λi,i=1,2,…,m,有:

Γ(λ,μ)⩽f(^x)

因此,对于任意 μj⩾0,j=1,2,…,n 和任意 λi,i=1,2,…,m 有 Γ(λ,μ)⩽p∗,也就是说,Γ(λ,μ)是主问题最优解的下确界。

对偶函数和对偶问题

在此,我们把 Γ(λ,μ) 称为对偶

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值