《Algorithms for Optimization》第二章笔记

月下香

已于 2024-03-31 21:38:19 修改

阅读量1k

点赞数 13

分类专栏：优化算法文章标签：笔记算法

于 2024-03-30 10:07:55 首次发布

本文链接：https://blog.csdn.net/sengyuweiyanga/article/details/137166717

版权

优化算法专栏收录该内容

7 篇文章 14 订阅

订阅专栏

Chapter2 Derivatives and Gradients

01 求导数的方法
参考文献

优化是指找到最小化(或最大化)目标函数的设计点。获得一个函数的值如何随着输入的变化而变化是有用的，因为它告诉我们在哪个方向上我们可以改进之前的点，函数值的变化是通过单变量函数的导数和多变量函数的梯度来度量的。

01 求导数的方法

1-1 有限差分方法

通过计算函数在某一点的邻近点处的值的差分，来近似导数，主要包括前向差分、后向差分和中心差分三种形式。
在这里插入图片描述

图1 有限差分方法求导数的不同形式

理论上，步长h越小，通过有限差分法求得的导数值越精确。但实际上由于计算机存储的精度有限，h的值太小会导致数值抵消误差反而使导数计算精度下降。

1-2 复数步进法

复数步进法通过单个函数求值绕过了减法消去的影响，只需在虚方向上走一步之后对函数求一次值。
函数在虚数部分的展开为：
$f(x+ih)=f(x)+ihf'(x)-h^2\frac{f''(x)}{2!}-ih^3\frac{f'''(x)}{3!}+\cdots \tag1$
仅考虑虚数部分，上式化为：
$\begin{align} Im(f(x+ih))=&hf'(x) -h^3\frac{f'''(x)}{3!}+\cdots \\ \Rightarrow f'(x)= & \frac{Imf(x+ih)}{h}+h^2\frac{f'''(x)}{3!}-\cdots \\ = &\frac{Im(f(x+ih))}{h} + O(h^2) \ as \ h\rightarrow0 \end {align} \tag2$
由上式可以求得导数值，而且避免了有限差分法的分子相减过程。
同时（1）式的实数部分为：
$\begin{align} Re(f(x+ih))=&f(x) -h^2\frac{f''(x)}{2!}+\cdots \\ \Rightarrow f(x)= & \frac{Ref(x+ih)}{h}+h^2\frac{f'''(x)}{2!}-\cdots \end {align} \tag3$
因此仅通过计算 $f (x + ih)$ 可以同时获得 $f^{'} (x)$ 和 $f (x)$ 的值。

1-3 自动微分法

自动微分技术的关键是链式法则的应用。自动微分过程可以通过使用计算图实现自动化，计算图表示一个函数，其中节点是操作，边是输入输出关系。计算图的叶节点是输入变量或常量，终端节点是函数输出的值。图2是函数 $f (a, b) = l n (ab + ma x (a, 2)$ 的计算图。

在这里插入图片描述

图2 函数 f(a, b)=ln(ab+max(a,2) 的计算图

利用函数的计算图进行自动微分有两种模式。正向传播模式使用对偶数，并从输入遍历树到输出，而反向传播需要反向通过计算图。

（1）正向传播

以函数 $f (a, b) = l n (ab + ma x (a, 2)$ 为例进行说明，计算该函数在 $a = 3, b = 2$ 处关于 $a$ 的偏导数值：

第一步：传播过程从图的输入节点开始，该节点由函数输入和任意常数值组成。对于这些节点中的每一个输入变量，计算关于 $a$ 的偏导数值，如图3所示；

在这里插入图片描述

图3 正向传播第一步

第二步：沿着树向下，一次一个节点，选择输入已经被计算过的节点作为下一个节点。通过传递前一个节点的值来计算下一个节点的值，使用前一个节点的值和它们的偏导数来计算 $a$ 的局部偏导数，如图4所示。从而通过一次正向传播获得 $\frac{\partial f}{\partial a}$ 的值。

在这里插入图片描述

图4 正向传播第二步

上述过程可以通过计算机编程方便地实现自动化，从而自动对每个节点操作来产生函数关于某变量的函数值及其导数，这是通过引入“对偶数”实现的。

对偶数（Dual numbers）是一种数学概念，扩展了实数的概念，类似于复数的结构。对偶数系统中的每个数可以表示为 $a+b\varepsilon$ 的形式，其中 $a$ 和 $b$ 是实数，而 $\varepsilon$ 是对偶单位，满足 ( $\varepsilon^2=0$ )（注意这与复数中的虚数单位 $i$ 满足 $i^2=-1$ ，不同）。

对偶数的一些基本性质包括：

加法：对偶数加法遵循分量加法的规则，即 $(a+b\varepsilon)+(c+d\varepsilon)=(a+c)+(b+d)\varepsilon$ 。
乘法：对偶数的乘法利用分配律和 $\varepsilon^2=0$ 的规则，即 $(a+b\varepsilon)\cdot(c+d\varepsilon)=ac+(ad+bc)\varepsilon$ 。
导数表示：对偶数特别有用的一个性质是它们可以用来表示函数关于变量的值和计算导数。如果有一个函数 $\mathbb{R}\rightarrow\mathbb{R}$ ，那么该函数在对偶数上的扩展 $\tilde{f}(a+b\varepsilon)=f(a)+f'(a)b\varepsilon$ 利用了对偶数的性质来直接给出函数在 $a$ 点的值和导数。