拉格朗日乘子法_拉格朗日乘子法（1）

最新推荐文章于 2023-11-16 10:04:26 发布

weixin_39602108

最新推荐文章于 2023-11-16 10:04:26 发布

阅读量385

点赞数

文章标签：拉格朗日乘子法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39602108/article/details/111364934

版权

博客探讨了拉格朗日乘子法在解决约束优化问题中的作用，通过信息熵的概念解释了-log(x)函数的性质。文中指出，相对熵（即KL散度）总是大于0，反映了编码效率。拉格朗日乘子法通过构造高维函数，确保目标函数在约束平面上的梯度为0，从而找到最优解。此外，还提到了拉格朗日乘子法在不等式约束问题中的应用，如SVM，并将其与最近在VAE中用于约束隐变量的研究相联系，展示了数学在量化情感表达中的潜力。

摘要由CSDN通过智能技术生成

今天碰到一个问题，

这个函数，因为-log(x)凸函数的性质，我们可以知道是大于等于log（N）的。或者可以解释为相对熵plog(p/q)总是大于0的。其实这一点在信息论里面也有解释，假设信源的概率是1/N，如果你用了-log(Pi)对信源信息进行编码，总是要多花费一些字节。按照实际的信息进行编码，总是最省的，而且等于熵的大小。相对熵其实就是多出来的部分。

可以利用拉格朗日乘子法对这个函数的最小值求解，构造

然后让F对Pi和lambda求偏导等于零，就可以得到Pi=1/N的结果了。

那么拉格朗日乘子法到底是什么意义呢？

第一，从形式上看，构造出了一个更高维的函数，把原来的约束优化问题，转化为高维度的无约束的最优化问题。约束项在去到最优解时等于0，所以约束条件满足了。

但是为什么让这个高维度函数最优时，目标函数是约束条件下最优呢？

有一个非常直观的几何解释。

从梯度上来看，目标函数的梯度一定在约束平面上没有分量。为啥呢？你想哈，

如果目标函数在约束面上有分量了，那朝着这个分量走一小步，不就可以取到更小/更大的值了吗？所以我们把约束平面的法向量给求出来，就是对约束条件求导。

有人问了，为啥对约束条件求导就是法向量呢？其实你把约束条件g(x，y) = c想成一个函数f取特定值， f=g(x, y)，那么f总有等高线吧，你求一个梯度不就是下降最快的方向，垂直等高线的吗，所以梯度就是法向量。

ok. 换一种说话，目标函数梯度和法向量共线, 就是和目标函数和约束函数的登高面相切，等等的说法，都是可以互换的。那么另我们构造的高维函数梯度对为0，就可以满足这样的条件。

观察这个构造完了的大函数，在最优化时加了一项lambda乘以约束项，如果把lambda想象成一个固定值，那么F函数相比目标函数多了一项，表示了约束条件对最优问题的影响。

-1/2(log(x)+log(y)):

lambda是 1，所以F = -1/2(log(x)+log(y)) + 1 (x + y -1)

如图，F在[0.5， 0.5]的地方形成了一个最小值。

lambda为正说明目标函数和约束函数的两个梯度相反。反之梯度方向相同。

另外，拉格朗日乘子法在不等式的情况也非常有用，kkt条件是解决SVM的关键。而谷歌最近的文章巧妙的把不等式中的松弛变量引入VAE中对于隐变量的约束，直接对应了语音合成中情感表现力因子。用数学量化描述情感，可以说非常具有启发性了。我们下一次再仔细看看。

weixin_39602108

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。