理解KKT条件

最新推荐文章于 2025-03-14 23:51:54 发布

Paul-LangJun

最新推荐文章于 2025-03-14 23:51:54 发布

阅读量5.3k

点赞数 11

分类专栏：最优化方法机器学习文章标签： KKT条件约束问题最优化凸规划可行方向

本文链接：https://blog.csdn.net/gaoxueyi551/article/details/103199344

版权

机器学习同时被 2 个专栏收录

35 篇文章

订阅专栏

最优化方法

4 篇文章

订阅专栏

一、引言

对于无约束最优化问题，其搜索空间是无界的，只要确定了搜索方向和步长因子，便可以在一轮或几轮迭代之后找到最优解或近似最有解。这里举个不太恰当的例子，无约束最优化如同在浩瀚的宇宙中寻找体积最大的星球，你按照一定的策略去找，不用担心越界。

而约束的优化问题就不同了，在寻找最优解的过程中始终要在某一个约束范围空间内进行。还是以上述例子说明，约束最优化如同在浩瀚的宇宙中寻找体积最大的星球，你按照一定的策略去找，但是不能离开银河系。KKT条件正是这类最优化问题的最优解必须要满足的条件，言外之意便是只要是最优解，必然满足这个条件，反之则不然；但对于凸问题，确是充分必要条件，这一点很重要，很多问题是凸的，这就为问题求解带来很大的便利性。

为了方便后续说明，本文以最小化下列同时含有等式约束和不等式约束的函数为例。

二、起作用约束和不起作用约束

在约束问题最优化中，约束分为起作用约束和不起作用约束两种。

设红色圆点表示 $\textit{\textbf{x}}^*$ ，三条曲线表示约束条件，共同构成可行域的边界。其中，与 $\textit{\textbf{x}}^*$ 相交的约束条件便是该点的起作用约束，而不相交的曲线称为该点的不起作用约束。其中，箭头表示约束边界在 $\textit{\textbf{x}}^*$ 处的梯度。

为什么要这样说那？这是因为它处在可行域的边界之上，与 $\textit{\textbf{x}}^*$ 相交的约束曲线限制了从 $\textit{\textbf{x}}^*$ 开始的下一步的搜索方向，，沿着某些方向稍微一动，必然后离开可行域；而不与 $\textit{\textbf{x}}^*$ 相交的约束曲线对次没有限制，只要步伐不是太大，可以向四面八方随意游走，总不会越过约束曲线。由此，可得两点结论

约束起作用与否是相对于某一点而言的
所谓的起作用约束即点 $\textit{\textbf{x}}^*$ 位于该约束曲线上

后续，将与 $\textit{\textbf{x}}^*$ 起作用的约束下标集合记为 $\textbf{I}\left ( \textit{\textbf{x}}^* \right )$ 。

三、可行方向

设 $\overrightarrow{\textit{\textbf{p}}}$ 为可行域内以 $\textit{\textbf{x}}^*$ 为起点的向量。在上图的基础上，利用下图说明 $\overrightarrow{\textit{\textbf{p}}}$ 与约束条件满足何种关系时是可行方向。

其中，红色圆点表示 $\textit{\textbf{x}}^*$ ，黑色箭头表示两个起作用约束在 $\textit{\textbf{x}}^*$ 处的梯度向量。分别以红色和蓝色箭头表示 $\overrightarrow{\textit{\textbf{p}}}$ 并进行讨论。

$\overrightarrow{\textit{\textbf{p}}}$ 与其中一个起作用约束在点 $\textit{\textbf{x}}^*$ 处的梯度夹角大于90度，稍微离开 $\textit{\textbf{x}}^*$ 一点便于离开可行域。
$\overrightarrow{\textit{\textbf{p}}}$ 与两个梯度向量的夹角均小于90度，稍微离开 $\textit{\textbf{x}}^*$ 一点不会离开可行域。

因此，若 $\overrightarrow{\textit{\textbf{p}}}$ 为可行方向， $\overrightarrow{\textit{\textbf{p}}}$ 与所有在点 $\textit{\textbf{x}}^*$ 处起作用约束的梯度向量所形成的的夹角都必须小于90度。更加严格的证明是通过在 $\textit{\textbf{x}}^*$ 处的泰勒展开式进行证明，此处为了便于理解仅做一个直观的说明。

四、KKT条件

介绍完了上面的一些概念后，来看一下KKT条件的定义。

OK，看上去很复杂的样子，其实我初次看到这个公式也有点被吓到，不过理清了上述的概念后，便很容易的理解了这一大坨公式的意义，那我就以图文并茂的方式逐条解释一下。

1、第一条。最左边是目标函数在 $\textit{\textbf{x}}^*$ 处的梯度向量，其余各项是在 $\textit{\textbf{x}}^*$ 处各约束的梯度向量的线性组合，自然也是向量，要求这两个向量方向必须相同，等价的说目标函数在 $\textit{\textbf{x}}^*$ 处的的负梯度向量的方向和它要相反！这是数学描述上的解释，直观一点可以参考下面两幅图

红色圆点表示 $\textit{\textbf{x}}^*$ ，如果点 $\textit{\textbf{x}}$ 是最优解，则必然满足KKT条件，假定 $\textit{\textbf{x}}^*$ 就是局部最小值点，择 $\textit{\textbf{x}}^*$ 不会是右图所示的红色圆点。为什么？如果 $\textit{\textbf{x}}^*$ 是右图的红色圆点，那么目标函数在 $\textit{\textbf{x}}^*$ 处的梯度向量以及 $\textit{\textbf{x}}^*$ 所在的等值线的切线向量之间存在一块狭长的区域中，沿着 $\textit{\textbf{x}}^*$ 点继续在此狭长区域中搜索，一定能找到一个比当前最小值还要小的值，这与我们的假设相悖！