机器学习：线性SVM转换拉格朗日对偶函数和决策函数

最新推荐文章于 2022-08-25 20:01:44 发布

Zen of Data Analysis

最新推荐文章于 2022-08-25 20:01:44 发布

阅读量1.3k

点赞数 2

分类专栏：机器学习算法统计文章标签：机器学习算法统计

本文链接：https://blog.csdn.net/gracejpw/article/details/102654506

版权

本文探讨了线性SVM中拉格朗日函数转换为对偶函数的过程及其原因。通过满足KKT条件，解释了为何能将原始优化问题转化为对偶问题，并介绍了决策函数的构建。通过求解对偶函数的最大值，可以找到支持向量机的权重和截距，进而实现分类。

摘要由CSDN通过智能技术生成

拉格朗日函数转换为拉格朗日对偶函数

Why need

求极值，最简单的方法还是对参数求导后让一阶导数等于0。先来试试对拉格朗日函数求极值，在这里对参数向量和截距分别求偏导并且让他们等于0。这个求导过程比较简单：
在这里插入图片描述

由于两个求偏导结果中都带有未知的拉格朗日乘数α_i，因此还是无法求解出ω和b，必须想出一种方法来求解拉格朗日乘数α_i。幸运地是，拉格朗日函数可以被转换成一种只带α_i，不带ω和b的形式，这种形式被称为拉格朗日对偶函数。在对偶函数下，就可以求解出拉格朗日乘数，
然后带入到上面推导出的(1)和(2)式中来求解ω和b。

Why can

对于任何一个拉格朗日函数 $L(x,α)=f(x)+\sum_{i=1}^qα_ih_i(x)$ ，都存在一个与它对应的对偶函数g(α)，只带有拉格朗日乘数α作为唯一参数。如果L(x,α)的最优解存在并可以表示为min_xL(x,α)，并且对偶函数的最优解也存在并可以表示为max_αg(α)，则可以定义对偶差异(dual gap)，即拉格朗日函数的最优解与其对偶函数的最优解之间的差值：
$\Delta=min_xL(x,α)-max_αg(α)$
如果Δ=0，则称L(x,α)与其对偶函数g(α)之间存在强对偶关系(strong duality property)，可以通过求解其对偶函数的最优解来替代求解原始函数的最优解。强对偶关系存在的条件：这个拉格朗日函数必须满足KKT(Karush-Kuhn-Tucker)条件（在优化理论中,KKT条件是非线性规划(nonlinear programming)最佳解的必要条件）：
在这里插入图片描述
这里的条件其实都比较好理解。首先是所有参数的一阶导数必须为0，然后约束条件中的函数本身需要小于等于0，拉格朗日乘数需要大于等于0，以及约束条件乘以拉格朗日乘数必须等于0，即不同的取值下，两者之中至少有一个为0。当所有限制都被满足，则拉格朗日函数L(x,α)的最优解与其对偶函数的最优解相等，就可以将原始的最优化问题转换成为对偶函数的最优化问题。
不难注意到，对于损失函数L(ω,b,α)而言，KKT条件都是可以操作的。如果能够人为让KKT条件全部成立，就可以求解出L(ω,b,α)的对偶函数来解出α。
之前我们已经让拉格朗日函数上对参数w和b的求导为0，得到了式子：
$\sum_{i=1}^Nα_iy_i\boldsymbol{x_i=ω}\quad （1）$