损失函数优化方法

最新推荐文章于 2024-05-17 19:05:52 发布

qq_14847537

最新推荐文章于 2024-05-17 19:05:52 发布

阅读量4.7k

点赞数

分类专栏：笔记文章标签：泰勒展开牛顿法梯度下降

笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

梯度下降法

梯度下降法是求解无约束最优化问题的一种最常用方法，有实现简单的优点。它是一种迭代算法，每一步需要求解的目标函数的梯度向量。

假设 $f(x)$ 是 $\mathbf R^n$ 上具有一阶连续偏导数的函数。要求解的无约束最优化问题是：

min x \in R n f (x)

$\min_{x \in \mathbf R^n} f(x)$

$x^*$ 表示目标函数 $f(x)$ 的极小点。

由于负梯度方向是使函数值下降最快的方向，在迭代的每一步，以负梯度方向更新 $x$ 的值，从而达到减少函数值的目的。

梯度下降的相关概念

步长：步长决定了在梯度下降迭代的过程中，每一步沿梯度负方向前进的长度。用下山的例子，步长就是在当前这一步所在位置沿着最陡峭最易下山的位置走的那一步的长度。
待求解的函数
待求解函数的导数
变量1：当前找到的变量，这个变量是“我们认为”当前找到的最好的变量，可以是函数达到最优值（这里是最小值）。
变量2：梯度，对于绝大多数的函数来说，这个就是函数的负导数。

比如如下的迭代公式：

θ i + 1 j = θ i j + α \partial \partial θ i j J (θ i j)

$\theta^{i+1}_{j} = \theta^i_j + \alpha \frac{\partial} {\partial \theta^i_j}J(\theta^i_j)$

特点

初始点不同，获得的最小值也不同，因此梯度下降求得的只是局部最小值；
越接近最小值时，下降速度越慢；

如何取到一个正确的 $\alpha$ 值

随时观察，如果 cost function 变小了，则 OK，反之，再取一个更小的值

如何理解泰勒展开

在实际应用中对于具有复杂形式的函数我们常常希望用较为简单的函数形式表示他，那多项式就是这种简单的形式。

首先还是先回到函数的局部线性近似这个概念。

举个例子，例如函数 $y = x^3$ ，当自变量有变化时，即 $\Delta x$ ，因变量 $y$ 会变化 $\Delta y$ ，带入到函数里面就有

Δ y = (x + Δ x) 3 - x 3 = 3 x 2 Δ x + 3 x (Δ x) 2 + (Δ x) 3

$\Delta y = (x + \Delta x)^3 - x^3 = 3 x^2\Delta x + 3x(\Delta x)^2 + (\Delta x)^3$

当 $\Delta x \rightarrow 0$ 时，上式的后两项是 $\Delta x$ 的高阶无穷小，舍去的话就变成了

Δ y = 3 x 2 Δ x

$\Delta y = 3x^2\Delta x$

也就是说当自变量 $x$ 足够小的时候，也就是在某点很小的邻域内， $\Delta y$ 是可以表示成 $\Delta x$ 的线性函数的。线性函数计算起来，求导会很方便。

对于一般函数，当在某点很小领域内我们也可以写成类似上面的这种自变量和因变量之间线性关系，

Δ y = f (x 0 + Δ x) - f (x 0) \approx f' (x 0) * Δ x

$\Delta y = f(x_0 + \Delta x) - f(x_0) \approx f'(x_0) * \Delta x$

变化一下形式，

$\Delta y = f(x) - f(x_0)$ ， $\Delta x = x- x_0$ 代入上式有，

$f(x) - f(x_0)= f’(x_0)*(x - x_0)$ $

移项有：

f (x) = f (x 0) + f' (x 0) (x - x 0)

$f(x) = f(x_0)+f'(x_0)(x-x_0)$

这个式子就很熟悉了，这个就是在 $x_0$ 点邻域内舍掉高阶无穷小以后得到的局部线性近似公式。为了提高近似的精确度，于是把上面的一次近似多项式修正为二次多项式（利用洛必达法则和二阶导数定义）再进一步，二次修正为三次，一直下去就得到了 $n$ 阶泰勒多项式了。所谓更精确地近似也就有了更高的密切程度，这种程度是通过导数体现的。

例如只做了一次近似的话，

f (x) = f (x 0) + f' (x 0) (x - x 0)

$f(x) = f(x_0) + f'(x_0)(x- x_0)$

近似的多项式和原始式是通过同一个点 $x_0$ 的。若进行二次近似，

f (x) = f (x 0) + f' (x 0) (x - x 0) + f '' ( x 0 ) 2 ! (x - x 0)

$f(x) = f(x_0) + f'(x_0)(x-x_0) + \frac{f''(x_0)}{2!}(x-x_0)$

近似的多项式和原始函数既通过同一个点 $x_0$ 而且在同一点的导数也相同。，也就是多项式表达式的函数在 $x_0$ 点的切线也相同。

类似进行三次近似的话，不仅切线相同，弯曲程度也相同。一直下去。。。。。

最后，总结一下好了，泰勒展开就是用形式简单的多项式来近似在 $x_0$ 邻域内的函数，展开越多近似程度越高。

牛顿法

为简单起见，考虑 $N = 1$ 的简单情形，牛顿法的基本思想是：在现有极小点估计值附近对 $f(x)$ 做泰勒展开，进而找到极小点的下一个估计值。设 $x_k$ 为当前极小点的估计值，则：

φ (x) = f (x k) + f' (x k) (x - x k) + 1 2 f'' (x k) (x - x k) 2

$\varphi(x) = f(x_k) + f'(x_k) (x - x_k) + \frac{1}{2} f''(x_k) (x - x_k)^2$

表示 $f(x)$ 在 $x_k$ 附近的二阶泰勒展开式，由于求的是最值，由极值必要条件可知， $\varphi (x)$ 应满足

φ' (x) = 0

$\varphi '(x) = 0$

即，

f' (x k) + f'' (x k) (x - x k) = 0

$f'(x_k) + f''(x_k) (x - x_k) = 0$

进而求得

x = x k - f ' ( x k ) f '' ( x k ), k = 1, 2, \dots

$x = x_k - \frac{f'(x_k)}{f''(x_k)} \quad, k = 1,2, \ldots$

于是，若给定初始值 $x_0$ ，则可以构造如下的迭代格式

x k + 1 = x k - f ' ( x k ) f '' ( x k ), k = 1, 2, \dots,

$x_{k+1} = x_k - \frac{f'(x_k)}{f''(x_k)} \quad , k=1,2,\ldots,$

产生序列 {x_k} 来逼近 $f(x)$ 的极小点，在一定条件下，{x_k} 可以收敛到 $f(x)$ 的极小点。

对于 $N >1$ 的情形，二阶泰勒展开可以做推广，此时

φ (x) = f (x k) + \nabla f (x k) \cdot (x - x k) + 1 2 (x - x k) T \cdot \nabla 2 f (x k) \cdot (x - x k)

$\varphi (x) = f(x_k) + \nabla f(x_k) \cdot (x - x_k) + \frac{1}{2}(x - x_k)^T \cdot \nabla ^2 f(x_k) \cdot (x - x_k)$

其中 $\nabla f$ 为 $f$ 的梯度向量， $\nabla ^2 f$ 为 $f$ 的海森矩阵，其定义为：

\nabla f = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f \partial x 1 \partial f \partial x 2 ⋮ \partial f \partial x N ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥, \nabla 2 f = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial 2 f \partial x 2 1 \partial 2 f \partial x 1 \partial x 2 \dots \partial 2 f \partial x 1 \partial x N \partial 2 f \partial x 2 \partial x 1 \partial 2 f \partial x 2 2 \dots \partial 2 f \partial x 2 \partial x N ⋱ \partial f \partial x N \partial x 1 \partial f \partial x N \partial x 2 \dots \partial 2 f \partial x 2 N ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ N \times N

$\nabla f = \begin{bmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \vdots \\ \frac{\partial f}{\partial x_N}\end{bmatrix} , \nabla^2 f = \begin{bmatrix} \frac{\partial^2 f}{\partial x^2_1} \quad \frac{\partial^2 f}{\partial x_1 \partial x_2} \quad \cdots \quad \frac{\partial ^2 f}{\partial x_1 \partial x_N} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} \quad \frac{\partial^2 f}{\partial x^2_2} \quad \cdots \quad \frac{\partial ^2f}{\partial x_2 \partial x_N} \\ \ddots \\ \frac{\partial ^f}{\partial x_N \partial x_1} \quad \frac{\partial ^f}{\partial x_N \partial x_2} \quad \cdots \quad \frac{\partial ^2 f}{\partial x^2_N} \end{bmatrix}_{N \times N}$

注意， $\nabla f$ 和 $\nabla ^2 f$ 中的元素均为关于 $X$ 的函数，以下分别将其简记为 $g$ 和 $H$ 。特别的，若 $f$ 的混合偏导数可交换次序，则海森矩阵 $H$ 为对称矩阵，而 $\nabla f(x_k)$ 和 $\nabla ^2 f(x_k)$ 则表示将 $X$ 取为 $X_k$ 后得到的实值向量和矩阵，以下分别将其简记为 $g_k$ 和 $H_k$ 。

同样的，由于是求极小点，极值必要条件要求它为 $\varphi (x)$ 的驻点，即

\nabla φ (X) = 0,

$\nabla \varphi(X) = 0,$

亦即

g k + H k \cdot (X - X k) = 0

$g_k + H_k \cdot(X - X_k) = 0$

进一步，若 $H_k$ 非奇异，则可解得

X = X k - H - 1 k \cdot g k

$X = X_k - H_k^{-1} \cdot g_k$

于是给定初值 $X_0$ ，则同样可以构造出迭代式

X k + 1 = X k - H - 1 k \cdot g k, k = 0, 1, \dots

$X_{k+1} = X_k - H_k^{-1} \cdot g_k \quad , k = 0 ,1, \ldots$

这就是原始的牛顿迭代法。其迭代公式的搜索方向 $d_k = - H_k^{-1} \cdot g_k$ 称为牛顿方向。

qq_14847537

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
损失函数优化方法

梯度下降法梯度下降法是求解无约束最优化问题的一种最常用方法，有实现简单的优点。它是一种迭代算法，每一步需要求解的目标函数的梯度向量。假设 f(x)f(x) 是 Rn\mathbf R^n 上具有一阶连续偏导数的函数。要求解的无约束最优化问题是：minx∈Rnf(x)\min_{x \in \mathbf R^n} f(x)x∗x^* 表示目标函数 f(x)f(x) 的极小点。由于负梯度方向是使函数值
复制链接

扫一扫