机器学习中的数学——数值计算和凸优化

最新推荐文章于 2023-04-08 18:55:57 发布

a_marker

最新推荐文章于 2023-04-08 18:55:57 发布

阅读量1.5k

点赞数 1

分类专栏：机器学习文章标签：机器学习数值计算凸优化

本文链接：https://blog.csdn.net/a_marker/article/details/88073129

版权

本文深入探讨了机器学习中数值计算的挑战，如上溢和下溢、病态条件及其解决方案。接着，文章详细阐述了凸优化的基础，包括凸集与分离定理、凸函数、共轭函数以及拉格朗日求解对偶问题。通过这些理论，可以更好地理解和解决优化问题，特别是在解决凸优化问题时的优势。

摘要由CSDN通过智能技术生成

数值计算

1.上溢和下溢

连续数学在计算机上的根本困难是通常需要用优先的位模式表示无限多的实数。实数表示中会引入近似误差，大多数近似误差是舍入误差，若不考虑舍入误差的累积，可能会导致算法失效。

下溢：接近零的数被四舍五入为零时发生下溢。许多函数在参数为零而不是一个很小的正数时表现出质的不同。

上溢：大量级的数被近似为 $\infty$ 或 $-\infty$ ，进一步的元素导致无限值变为非数字。

解决方法：利用softmax函数。
$softmax(\boldsymbol x)_i=\dfrac{exp(x_i)}{\sum_{j=1}^nexp(x_j)}$
假设输入向量是 $\boldsymbol x$ ，令 $\boldsymbol z=\boldsymbol x-max_i x_i$

softmax函数的解析值不会因为从输入值减去或加上标量值而改变。

2.病态条件

条件数是指函数相对于输入的微小变化而变化的快慢程度。

$K(\boldsymbol A)=\Vert\boldsymbol A\Vert \cdot \Vert\boldsymbol A^{-1}\Vert$
一般来说，方程组解集的精度大概是 $log_{10} K(\boldsymbol A)$ 个十进制位的误差。

考虑函数 $f(\boldsymbol x)=\boldsymbol A^{-1}\boldsymbol x$ 。当 $\boldsymbol A \in \mathbb R^{n \times n}$ 具有特征值分解时，其条件数为

$max_{i,j}\left| \dfrac{\lambda_i}{\lambda_j} \right|$

当该值很大时，矩阵求逆对输入的误差很敏感。

病态是线性方程组中系数矩阵列向量线性相关性过大，表示的特征过于相似。

病态矩阵的处理方法
病态矩阵解集的不稳定性由于解集空间包含自由度过大的方向。病态矩阵的特征向量不一定正交，不适合做新基，SVD分解分解出正交基。即将解集限制在一组正交基空间内。

3.优化

优化指的是改变 $\boldsymbol x$ 以最小化或最大化某个函数 $f(\boldsymbol x)$ 的任务。

Jacobian矩阵：输入和输出都是向量的函数的所有偏导数。矩阵 $\boldsymbol J \in \mathbb R^{n \times n}$ 定义为 $J_{i,j}=\dfrac{\partial}{\partial\, x_j}f(\boldsymbol x)_i$

Hessian矩阵 $\boldsymbol H_f(\boldsymbol x)$ 定义为
$\boldsymbol H_f(\boldsymbol x)=\dfrac{\partial^2}{\partial\, x_i\partial\, x_j}f(\boldsymbol x)$
Hessian矩阵是实对称的，因此可以分解为一组实特征值和一组特征向量的正交基。

在特定方向 $\boldsymbol d$ 上的二阶导数可以写成 $\boldsymbol d^T\boldsymbol H\boldsymbol d$ 。当 $\boldsymbol d$ 是 $\boldsymbol H$ 的一个特征向量时，这个方向的二阶导数是对应的特征值；对于其他方向 $\boldsymbol d$ ，方向二阶导数的所有特征值的加权平均，权重在0和1之间，且与夹角越小的特征向量的权重越大。

当最优化的函数能用二次函数很好近似的情况下，Hessian决定学习率的量级。

函数变量大于1时，鞍点不一定具有0特征值，仅需要同时具有正特征值和负特征值。

牛顿法基于泰勒展开近似 $f(\boldsymbol x)$

一阶泰勒展开的牛顿法

$f(x)=f(x_0)+\nabla_xf(x_0)(x-x_0) \\ x_{n+1}=x_n-\dfrac{f^`(x_n)}{f(x_n)}$
二阶泰勒展开的牛顿法
$f(x)=f(x_0)+f'(x_0)(x-x_0)+\dfrac{1}{2}f''(x_0)(x-x_0)^2\\ x^*=x_0-\dfrac{f^`(x_0)}{f''(x_n)}$