performance optimization

最新推荐文章于 2020-12-23 11:18:08 发布

sinat_14853987

最新推荐文章于 2020-12-23 11:18:08 发布

阅读量378

点赞数

分类专栏： Neural Networks 文章标签：神经网络深度学习梯度下降法

本文链接：https://blog.csdn.net/sinat_14853987/article/details/45816421

版权

Neural Networks 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

各位看官请注意，本文主要依据《神经网络设计（Neural Network Design）》撰写，想阅读原文请移步Neural Network Design，想继续啃方便面，请继续往下看。

当神经网络结构（神经元多少、层数、连接方式、激活函数）确定之后，对其训练和学习就是对 $F(w)$ (performance function、cost function、energy function，之间的区别与联系可以看lecun的一篇文章，在这里称作性能函数）的优化问题。也就是寻找一组合适的链接权 $w$ ，使得性能函数取得最小值。一般的神经网络方法都是迭代的方法，给定一个 $w_{0}$ ，然后通过一定的方法得到一个更新 $\Delta w_{k}$ ，然后对 $w$ 按照下面的公式进行更新：

w k + 1 = w k + α k p k

$w_{k+1}= w_{k} + \alpha_{k} p_{k}$
或者

Δ w k = w k + 1 - w k = α k p k

$\Delta w_{k} = w_{k+1} - w_{k} = \alpha_{k} p_{k}$
其中，

pk $p_{k}$ 表示搜索方向；

αk $\alpha_{k}$ 是学习因子，决定更新的步长。

因此呢，所谓的学习方法，也就是去计算 $p_{k}$ 和 $\alpha_{k}$ 。我们首先介绍一些计算 $p_{k}$ 和 $\alpha_{k}$ 的方法，然后将其结合Backpropagation算法，将其应用到神经网络的学习中去。

performance optimization

对于 $F(w)$ 的优化是基于泰勒展式（Taylor Series Expansion）：

F (w k + 1) = F (w k + Δ w k) \approx F (w k) + \nabla F (w) T | w = w k Δ w k + 1 2 Δ w T k \nabla 2 F (w) | w = w k Δ w k

$F(w_{k+1}) = F(w_{k} + \Delta w_{k}) \approx F(w_{k}) + \nabla F(w)^{T}|_{w=w_{k}} \Delta w_{k} + \frac{1}{2} \Delta w^{T}_{k} \nabla^{2}F(w)|_{w=w_{k}} \Delta w_{k}$
于是乎就出现先了一阶、二阶优化方法（为什么没有三阶、四阶呢？关键是性能函数

F(w) $F(w)$ 的三阶、四阶导数存在嘛、好求吗？比如说常用的欧式距离，三阶导数是0呢。。。即使存在，二阶导数已经累死人了，三阶导数你敢求吗？实际应用的神经网络的连接数随随便便都已经数以万计了吧）

首先咱们说说一阶方法。
根据泰勒展式

F (w k + 1) \approx F (w k) + \nabla F (w) T | w = w k Δ w k

$F(w_{k+1}) \approx F(w_{k}) + \nabla F(w)^{T}|_{w=w_{k}} \Delta w_{k}$
记

∇F(w)T|w=wk $\nabla F(w)^{T}|_{w=w_{k}}$ 为

gTk $g^{T}_{k}$ ，其实

gk $g_{k}$ 也就是梯度。要使得

F(wk+1)<F(wk) $F(w_{k+1}) < F(w_{k})$ ，故而

gTkαkpk<0 $g^{T}_{k} \alpha_{k} p_{k} < 0$ 。又因为

αk>0 $\alpha_{k} > 0$ ，所以

g T k p k < 0

$g^{T}_{k} p_{k} < 0$ .
那么任何满足上式的

pk $p_{k}$ 都可以作为搜索方向，乘以一个足够小的

αk $\alpha_{k}$ 都可以使得性能函数变小。为了加快收敛速度，自然是选择与

gk $g_{k}$ 反向作为

pk $p_{k}$ 的方向了。方便起见呢，就是

p k = - g k

$p_{k} = - g_{k}$
这就是传说中的梯度下降算法了。

另外一个需要解决的问题就是 $\alpha_{k}$ 取多少合适？足够小，可以收敛，但是速度太慢了啊。太大又容易产生震荡，甚至直接就发散跑了。。。
那有没有一个范围可以指导一下呢？答案是有。（可以看看Lecun的这篇文章）其实，当 $p_{k}$ 选择之后，就变成了相对于 $\alpha$ 来优化 $F(x)$ 。有很多搜索方法，来选择 $\alpha_{k}$ 。以后再讨论。

现在说说这个二阶方法，也就是所谓的牛顿法，运气好的话，一步就得到解析解。
同样的根据泰勒展式

F (w k + 1) = F (w k + Δ w k) \approx F (w k) + g T k Δ w k + 1 2 Δ w T k \nabla 2 F (w) | w = w k Δ w k

$F(w_{k+1}) = F(w_{k} + \Delta w_{k}) \approx F(w_{k}) + g^{T}_{k} \Delta w_{k} + \frac{1}{2} \Delta w^{T}_{k} \nabla^{2}F(w)|_{w=w_{k}} \Delta w_{k}$
这个时候呢对

Δwk $\Delta w_{k}$ 求导，并等于零，我们就得到