基础课学习笔记-最优化方法

最新推荐文章于 2024-03-18 20:05:42 发布

bohu83

最新推荐文章于 2024-03-18 20:05:42 发布

阅读量1k

点赞数

分类专栏：数学文章标签：最优化

本文链接：https://blog.csdn.net/bohu83/article/details/115917615

版权

数学专栏收录该内容

15 篇文章 1 订阅

订阅专栏

一序

本文属于极客时间基础课学习笔记系列。常见的人工智能的问题最终会归结为优化的问题求解，在复杂环境与多体交互中做出最优决策。

所以最优化是基础知识。

二基础定义

最优化理论研究的问题是判定给定目标函数的最大值（最小值）是否存在，并找到令目标函数取到最大值（最小值）的数值。

目标函数（objective function）

目标函数就是实现最小化或最大化的目标函数，也被称为评价函数。大多数最优化问题可以通过是目标函数 $f(x)$ 最小化解决，最大化问题可以通过最小化 $-f(x)$ 实现。

理想情况下是，最优化算法可能找到目标函数的全局最小值（global mininum），也可能找到局部最小值(local mininum）。

复诊情况下，如目标函数的参数较多，解空间较大时，在深度学习的场景下，只要目标函数的取值足够小，可以把这个值当做全局最小值使用，作为一个折中方案。

根据约束条件不同，最优化问题可以分为：无约束优化（unconstrained optimization）和约束优化（constrained optimization）两类。

线性规划

属于典型的约束优化，它的目标函数和约束条件都是线性的，通常使用拉格朗日乘数法用于求解条件极值问题的思想：

假设有 $z=f(x,y)$ 二元函数，一个约束条件 $\varphi (x,y)=0$ .为了求解 $z=f(x,y)$ 在附加条件下的极值，我们先作出拉格朗日函数 $L(x,y,\lambda )$

$L(x,y,\lambda )=f(x,y)+\lambda \varphi (x,y)$

$L(x,y,\lambda )$ 分别对 $x,y,\lambda$ 一阶偏导数分别等于=0.求解方程组得到的驻点 $(x,y)$ ,是 $z=f(x,y)$ 在约束条件 $\varphi (x,y)=0$ 限制下的可能的极值点。

从数学上讲：原来函数 $z=f(x,y)$ 与约束条件 $\varphi (x,y)=0$ 构成的拉格朗日函数与原函数有共同的最优点集和最优的目标函数值，从而保证了最优解的不变性。

梯度下降法

求解无约束优化问题常用的方法是梯度下降法。直观地说，就是沿着目标函数下降最快的方向寻找最小值，
举例：爬山时沿着坡度最陡的路径寻找山顶。在数学上，梯度的方向是目标函数导数的反方向
当输入为向量时，目标函数的图像就变成了高维空间的曲面，这时的梯度就是垂直于曲面等高线并指向高度增加方向的向量，要上目标函数以最快的速度下降，就要让自变量在负梯度的方向移动(数学上表达就是“多远函数沿负梯度方向下降最快”)
另一个重要的是步长，也就是每次更新f(x)时x的变化值。较小的步长会导致收敛过程较慢，步长过大可能会导致一步迈过了最小值点。
以上是针对单个样本的梯度下降法，当可用的训练样本有多个时，样本的使用批处理模式和随机梯度下降法模式。

再NLP学习笔记整理过梯度下降法的目标函数推导过程。

NLP学习笔记21-逻辑回归2：决策边界，目标函数,凸函数，梯度下降

批处理模式梯度下降法（batch processing）

计算出每个样本上目标函数的梯度，再将不同样本的梯度进行求和，求和的结果作为本次更新中目标函数的梯度。

随机梯度下降法（stochastic gradient descent）

在每次更新中只使用一个样本，下一次更新中使用另一样本，在不断迭代更新过程中实现对所有样本的遍历。在训练集规模较大时，随机梯度下降法的性能更好。

梯度下降法使用了目标函数的一阶导数，没用使用目标函数的二阶导数。

牛顿法（Newton's method）

牛顿法是将二阶导数引入优化过程，对二阶近似后的目标函数求导，并让导数为0，得到向量表示的就是下降最快的方向，牛顿法比梯度下降法快收敛速度更快。