最优化问题(一)

最新推荐文章于 2024-08-17 10:41:45 发布

SkullSky

最新推荐文章于 2024-08-17 10:41:45 发布

阅读量3.2k

点赞数 4

分类专栏：机器学习文章标签：最优化约束优化拉格朗日乘子法罚函数法 SVM

本文链接：https://blog.csdn.net/SkullSky/article/details/107621148

版权

机器学习专栏收录该内容

23 篇文章 16 订阅

订阅专栏

最优化问题(一)
最优化问题(二) 之拉格朗日乘子法和KKT
最优化问题(三) 之外点法（罚函数法）
最优化问题(四) 之投影法

1. 最优化问题

其实早在高中阶段，我们就已经学习过了什么是最优化问题。

求一元二次方程 $f(x)=x^2+2*x+1$ 的最小值

求解方法也很简单，令 $f (x)$ 对 $x$ 的导数为0，该方程的解即为极值点。
现在我们知道，之所以可以这么求解是因为函数 $f (x)$ 为凸函数，其极值点就对应最优解。同时 $f (x)$ 的导数方程可以直接求解的，但对于更为复杂的情形，就不一定能直接求解出来了。所以我们需要更为通用的求解方法。

2. 最优化问题分类

要知道通用的最优化问题求解方法，就需要了解最优化问题的分类及一般形式。最优化问题可以分为3个层次：最简单的是无约束优化，其次是带等式约束的优化，最难的是带不等式约束和等式约束的优化。
在这里插入图片描述
下面我们一一举例介绍每个类别，

无约束优化：上面我们提到的一元二次方程最小值问题就是一个典型的无约束优化问题
等式约束优化：将上面的问题扩充一下，就变成了等式约束优化问题了

已知 $x + y = 5$ ，求二元二次方程 $f(x)=x^2+2*y+1$ 的最小值

不等式约束优化：将上面的问题再扩充一下，就变成了不等式约束优化问题了

已知 $x + y > = 5$ ，求二元二次方程 $f(x)=x^2+2*y+1$ 的最小值

由此，可以给出最优化问题的一般形式：
在这里插入图片描述

3. 最优化问题求解

对于无约束优化问题，常见的方法有：梯度下降法、最速下降法、牛顿迭代法等；而在有约束的问题中，直接使用这些基于梯度的方法会有问题，如更新后的值不满足约束条件。

那么问题来了，如何处理有约束的优化问题？大致可以分为以下两种方式（后面将一一介绍）：

将有约束的问题转化为无约束的问题，如拉格朗日乘子法和KKT条件、罚函数法；
对无约束问题下的求解算法进行修改，使其能够运用在有约束的问题中，如对梯度下降法进行投影，使得更新后的值都满足约束条件。

4. 最优化问题的应用

最优化问题在实际场景中十分常见，例如机器学习中很多模型的拟合过程就是一个优化问题，优化目标就是最小化损失函数。

无约束的最优化问题
如线性回归的损失函数最小化目标（又称为最小二乘法）：
$\min \dfrac{1}{2} \sum_{i=1} ^m (h(x_i) - y_i)^2$
如果在原始最小二乘法损失函数的基础上加上正则化项，又变成了新的优化目标：
Lasso回归： $\min \dfrac{1}{2} \sum_{i=1} ^m (h(x_i) - y_i)^2 + \lambda \sum_{j=1} ^ n |\omega_j|$
岭回归： $\min \dfrac{1}{2} \sum_{i=1} ^m (h(x_i) - y_i)^2 + \lambda \sum_{j=1} ^ n |\omega_j|^2$
其中， $\lambda$ 是正则化项的系数，用于权衡模型结构风险与经验风险的比重，可以看到LASS回归与岭回归的差别仅仅在于使用的正则化项而已，LASS使用的是L1正则化，岭回归使用的是L2正则化。
有约束的最优化问题
这一类优化问题除了有目标函数项，还有其他约束项。比如：SVM 的优化目标为最大化几何间隔，即
$\max r = \dfrac{\hat{r}}{||\omega||}$
其中， $r$ 是样本集合在样本空间的最小几何间隔（几何间隔：样本点到分界面的垂直距离）， $\hat{r}$ 是函数间隔，几何间隔与函数间隔满足 $r=\hat{r}/||\omega||$ ， $\omega$ 是分界超平面的系数向量，SVM的目标就是要让上图中的r最大化。
但是，这个优化目标还要满足额外的约束条件：
$r_i >= r$
其中， $r_i$ 表示每个样本各自的几何间隔，很显然最小的几何间隔肯定要小于等于每个样本各自的几何间隔。
则，完整的优化目标可以写成：
$\max r$ , s.t. $r_i=\dfrac{y_i(wx_i+b)}{||\omega||}=\dfrac{\hat{r_i}}{||\omega||} >= r$
两边同时乘以 $||\omega||$ ，
$\max r$ , s.t. $y_i(wx_i+b)>=||\omega||r$
由 $r=\hat{r}/||\omega||$ ，
$\max \dfrac{\hat{r}}{||\omega||}$ , s.t. $y_i(wx_i+b)>=\hat{r}$
为了简化优化目标，令 $\hat{r}=1$ ，，则完整的优化目标可以写成：
$\max \dfrac{1}{||\omega||}$ , s.t. $y_i(wx_i+b)>=1，i=1, 2...,n$