机器学习，最优化数值计算常用算法_数据量不大时。计算最优值的算法-CSDN博客

本文链接：https://blog.csdn.net/drawsky/article/details/80466187

一机器学习表示及数值求解原理

大部分机器学习，尤其是神经网络、深度网络，最优化一个经验损失函数（通常带有正则项），损失函数在某个样本点可表示为： $L(\vec\beta, X^{(i)})$ ,在训练样本上的期望损失函数表示为 $L(\vec\beta)=\frac{1}{n}\sum_{i=0}^{n}L(\vec\beta, X^{(i)})$ 训练就是给定在样本上寻找期望损失函数 $L(\vec\beta)$ 全局最小值所在的参数 $\vec\beta$ 即：

β ⃗ * = a r g m i n β ⃗ \in Θ L (β ⃗))

$\vec\beta^* = \underset{\vec\beta \in \Theta}{arg \,min}\,L(\vec\beta))$
通用的损失函数最优化的数值方法，来源于泰勒展开式，多元函数的泰勒展开式可表示为：

L (β ⃗ + t α ⃗) = L (β ⃗) + \sum i = 1 n (\sum j = 1 p (t α j \partial \partial β j) i L (β ⃗)) + o (t n) \forall ∥ α ⃗ ∥ 2 = 1

$L(\vec\beta+t\vec\alpha)=L(\vec\beta)+\sum_{i=1}^{n}(\sum_{j=1}^{p}(t\alpha_j\frac{\partial}{\partial \beta_j})^iL(\vec\beta)) +o(t^n)\quad \forall \Vert\vec\alpha\Vert^2=1$

1.1 一阶逼近

一阶泰勒展开式为：

L (β ⃗ + t α ⃗) = L (β ⃗) + t \nabla L (β ⃗) α ⃗ + o (t) \forall ∥ α ⃗ ∥ 2 = 1

$L(\vec\beta+t\vec\alpha)=L(\vec\beta)+t\nabla L(\vec\beta)\vec\alpha + o(t)\quad \forall \Vert\vec\alpha\Vert^2=1$

给定 $\vec\beta,\Vert\vec\alpha\Vert^2=1,t>0$ 的条件下，忽略高阶项，在 $\vec\alpha=s\nabla L(\vec\beta)，s=\Vert\vec\nabla L(\vec\beta)\Vert^{-1}$ 时，有最小值。

L (β ⃗ - t α ⃗) = L (β ⃗) - t ∥ \nabla ⃗ L (β ⃗) ∥

$L(\vec\beta-t\vec\alpha)=L(\vec\beta)-t\Vert\vec\nabla L(\vec\beta)\Vert\\$
因此在一阶条件下，最速下降法参数迭代的数值更新公式为:

β ⃗ \leftarrow β ⃗ - t \nabla ⃗ L (β ⃗, X) (1)

$\vec\beta\leftarrow \vec\beta-t\vec\nabla L(\vec\beta,X) \quad(1)$

1.2 二阶逼近

可以对损失函数进行二阶展开，展开式可以表示为：

L (β ⃗ + t α ⃗) = L (β ⃗) + t \nabla L (β ⃗) α ⃗ + t 2 α ⃗ t \nabla 2 L (β ⃗) α ⃗ + o (t 2) \forall ∥ α ⃗ ∥ 2 = 1

$L(\vec\beta+t\vec\alpha)=L(\vec\beta)+t\nabla L(\vec\beta)\vec\alpha +t^2\vec\alpha^t\nabla^2 L(\vec\beta)\vec\alpha+ o(t^2)\quad \forall \Vert\vec\alpha\Vert^2=1$
二阶条件下，给定

β⃗ ,∥α⃗ ∥2=1,t>0 β → , ‖ α → ‖ 2 = 1 , t > 0 $\vec\beta,\Vert\vec\alpha\Vert^2=1,t>0$ 的条件下，

L(β⃗ +tα⃗ ) L ( β → + t α → ) $L(\vec\beta+t\vec\alpha)$ 取得最小值的必要条件是：

\nabla L (β ⃗) + t \nabla 2 L (β ⃗) α ⃗ = 0 t a = - (\nabla 2 L (β ⃗)) - 1 * \nabla L (β ⃗)

$\nabla L(\vec\beta) +t\nabla^2 L(\vec\beta)\vec\alpha=0\\ ta=-(\nabla^2 L(\vec\beta))^{-1}*\nabla L(\vec\beta)$
此时

β⃗ β → $\vec\beta$ 的更新参数是：

β ⃗ \leftarrow β ⃗ - (\nabla 2 L (β ⃗)) - 1 * \nabla L (β ⃗) (2)

$\vec\beta\leftarrow\vec\beta-(\nabla^2 L(\vec\beta))^{-1}*\nabla L(\vec\beta) \quad(2)$

以上（1）（2）两式是数值求解损失函数的基本方法，不断迭代参数 $\vec\beta$ ，理想情况下每一步迭代都有 $L(\vec\beta^{(k+1)})\le L(\vec\beta^{(k)})$ ，反复迭代更新 $\vec\beta$ 得到 $L(\vec\beta)$ 的局部最小值，从而求得 $\vec\beta^*$ ,这就是最优化数值求解的基本思想。
迭代求解的过程，就是机器学习的训练过程，机器学习就是在给定模型和样本的情况下，求解参数 $\vec\beta^*$ .