凸优化（Quasi convex optimization）与梯度下降（Grad descent）

小黄要当程序员

已于 2023-05-15 20:41:33 修改

阅读量3.2k

点赞数 4

文章标签：机器学习深度学习人工智能动态规划算法

于 2023-05-12 10:33:05 首次发布

本文链接：https://blog.csdn.net/a2333333_/article/details/130614781

版权

一、凸优化

1.1评价标准

当我们建立模型之后，我们希望有一种标准来评价模型的好坏；

而优化问题的目的就是根据这一评价标准，使得我们向好的方向改正，这里的标准可以是最大化收益，亦可是最小化损失。

统计学习中，我们常用的是损失（Loss）来描述模型‘不好’的程度，损失越小，我们的模型就越好。

如果这个二次函数的图像是我们的损失图；

假设我们处于点A处，此时损失较大，我们期待它可以向箭头方向前进，以此达到损失减小的目的。当我们达到点B时，此时损失达到了函数最小值了，我们认为达成了我们的优化目的。

1.2驻点

不过现实是，我们优化模型的时候，找到损失最小点并不容易。

上图中损失最小点B点导数值为0，是驻点。

我们来看一下驻点的定义：驻点是导数值为0的点， $f(x)$ 的极值点一定是驻点或者导数不存在的点，然而反之却不一定。

我们来看一个例子，当我们构造形如 $f(x)=\frac{1}{20}x^{3}$ 的函数时， $x=0$ 处的导数为0，但0显然不是最大或者最小值点，甚至不是极值点。

这给我们造成了许多困扰，我们只能通过导数值为0找到驻点，无法直接找到最值点；

当一个点时最值点时，他一定是驻点；但是驻点并不一定是最值点，他可能是局部极值点，或者鞍点。

那么我们是否可以通过一些条件的约束，使得我们的驻点就是我们的最值点呢？

1.3凸优化条件

满足以下条件的问题，我们定义为凸优化问题：

对于目标函数，限定为凸函数；对于优化变量的可行域，限定为凸集。

凸优化问题的解（就是损失的驻点）就是我们要找的最小值点

看一下凸集的定义：

$\forall x_{1},x_{2}\ \epsilon X,\forall\theta \ \epsilon [0,1],\theta x_{1} +(1-\theta) x_{2}\ \epsilon X$

如此定义的集合 $X$ 是凸集，可以理解为集合中任意两点的连线都在集合之内，集合的‘角’是向外凸出的，所以叫凸集。

再来看一下凸函数的定义：

$\forall x_{1},x_{2}\ \epsilon X,\ \alpha f(x_{1})+(1-\alpha f(x_{2}))\geq f(\alpha x_{1}+(1-\alpha) x_{2}),\alpha \geq 0$

如此定义为凸函数，可以理解为两点连线的值大于两点之间函数值

当定义域 $X$ 是凸集 $f(x)$ 是凸函数时，我们称为凸优化问题。

当定义域维数大于1时,我们列出其黑塞（Hessian）矩阵，如果黑塞矩阵半正定，则判断为凸函数。

1.4凸优化形式

形如下式的优化问题称为凸优化问题；

$min\ L(x) \\ s.t. \begin{cases} f_{i}(x)\leq 0 ,i=1,2,...,N\\ h_{i}(x)=0 ,i=1,2,...,N \end{cases}$

其中 $L(x)$ 为我们需要最小化的损失函数， $f_{i}(x)$ 为不等式约束条件， $h_{i}(x)$ 为等式约束条件。

二、梯度下降

2.1损失函数

损失函数是上述损失的数值化表达，用数字大小来衡量损失的强弱。

我们常用的损失有

1）均方损失（MSE）

$L=\frac{1}{N}\sum_{i=1}^{N}(y_{i}-\widehat{y_{i}})^{2}$

其中 $\widehat{y_{i}}$ 是我们模型在我们输入某个样本特征后得到的预测值，而 $y_{i}$ 是该样本的真实值, $N$ 是样本个数。

2）交叉熵损失（Cross Entropy）

$L=\sum_{i=1}^{N}\sum_{j=1}^{M}y_{j}log\widehat{y_{j}}$

交叉熵损失常用于衡量分类任务预测概率和真实标签的误差；当输入样本的特征之后，返回的是样本属于各类别的概率 $\widehat{y_{j}}=(p_{1},p_{2},...p_{M})$ ,且 $p_{1}+p_{2}+...+p_{M}=1$ ；而样本的标签描述的是样本属于哪一类，如果属于第 $i$ 类，那么样本的真实标签则为 $y_{j}=(0,0,....1,0,...0)$ ,其中第 $i$ 列为1其余全为0。

公式中， $\widehat{y_{i}}$ 是预测概率， $y_{i}$ 是真实标签， $M$ 是类别个数， $N$ 是样本个数。

2.2梯度

设函数 $z=f(x,y)$ 在点 $P(x,y)$ 的某一邻域 $U(P)$ 内有定义，自点 $P$ 引射线 $l$ ，若 ${\frac{\partial f }{\partial l}}=\underset{\Delta x\rightarrow 0,\Delta y\rightarrow 0}{lim}\frac{f(x+\Delta x,y+\Delta y)-f(x,y)}{ \sqrt{(\Delta x)^{2}+(\Delta y)^{2}} }$ 存在，则称 ${\frac{\partial f }{\partial l}}$ 为点 $(x,y)$ 沿 $l$ 方向的方向导数。

显然我们可以找到无数条射线 $l$ ，这也代表着方向导数有无限多，而我们关注的是其中最大的一个，其含义为：沿着该方向函数变化的最快；这就是我们说的梯度。

损失函数的梯度是我们重点关注的对象，损失的最小负梯度方向是减小最快的方向，我们该方向优化可以使我们的损失更快的降低。

我们来看一个实例：

当我们想拟合直线 $y=ax+b$ 时，我们寻找直线上两个点 $(x_{1},y_{1})$ 以及 $(x_{2},y_{2})$ ，我们对这两点的预测值为 $\widehat{y_{1}},\widehat{y_{2}}$ ，对应关系为 $\widehat{y_{i}}=w x_{i}+b$ ，其中 $w,b$ 为初始参数；

此时我们拥有我们的预测值 $\widehat{y_{1}},\widehat{y_{2}}$ 以及真实值 $y_{1},y_{2}$ ，我们便可以计算我们的预测损失；这里使用MSE损失，于是损失： $L=\frac{1}{2} (y_{1}-\widehat{y_{1}})^{2}+\frac{1}{2} (y_{2}-\widehat{y_{2}})^{2}=\frac{1}{2} (y_{1}-wx_{1}-b)^{2}+\frac{1}{2} (y_{2}-wx_{2}-b)^{2}$