神经网络简介-加速学习

最新推荐文章于 2020-05-06 10:44:27 发布

w326639619

最新推荐文章于 2020-05-06 10:44:27 发布

阅读量451

点赞数

分类专栏：神经网络机器学习文章标签：神经网络机器学习

本文链接：https://blog.csdn.net/w326639619/article/details/53126602

版权

神经网络同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

机器学习

6 篇文章 0 订阅

订阅专栏

在训练神经网络过程中，网络训练速度是比较引人关注的一个问题。我们希望在训练过程中网络代价函数会快速收敛，准确率会快速提升，下面来说说一些常见的方法。

1.代价函数更换

1.1. quadratic-cost function

J (w, b) = 1 2 n \sum i = 1 n (y i - h (w, b) (x i)) 2 + R (w)

$J(w,b)=\frac{1}{2n}\sum_{i=1}^{n}{\left(y_{i}-h_{(w,b)}(x_{i})\right)^{2}}+R(w)$
上式中，

R(w) $R(w)$ 是正则项，对于第一个代价函数，我们由第二节的知识可知，最后一层w更新公式为

w (L) = w (L) - α \cdot \partial J ( w , b ) w ( L ) = w (L) - α \cdot δ (L + 1) \cdot a (L)

$w^{(L)} = w^{(L)} -\alpha\cdot\frac{\partial J(w,b)}{w^{(L)}}=w^{(L)} - \alpha\cdot\delta^{(L+1)}\cdot a^{(L)}$
其中

δ (L + 1) = - (y - a (L + 1)) f' (z (L))

$\delta^{(L+1)}=-(y-a^{(L+1)})f'(z^{(L)})$
而

f′(z(L)) $f'(z^{(L)})$ 是激活函数的导数，之前的实验中我们选取的激活函数为sigmod函数，其对应的函数曲线为
$f(x)=\frac{1}{1+e^{(-x)}}$
从上图中可以看出，在曲线的两端，sigmod函数导数几乎为0，也就是

δ(L+1) $\delta^{(L+1)}$ 中的

f′(z(L)) $f'(z^{(L)})$ 几乎为0，所以导致权重更新得到的值很小，导致网络学习很慢。

1.2. cross-entropy cost function

对于上面提到的问题，如果能让 $\delta^{(L+1)}$ 中的 $f'(\cdot)$ 消失，那么 $w和b$ 的更新程度将会增大，网络学习速度就会提示。而cross-entropy函数正好可以实现这样的期盼。

J (w, b) = - 1 n \sum i = 1 n [y i \cdot l n (h (w, b) (x)) + (1 - y i) \cdot l n (1 - h (w, b) (x))]

$J(w,b)=-\frac{1}{n}\sum_{i=1}^{n}{[y_{i}\cdot\mathrm{ln}(h_{(w,b)}(x))+(1-y_{i})\cdot\mathrm{ln}(1-h_{(w,b)}(x))]}$
此时，对于cross-entropy代价函数，有

\partial J \partial w ( L ) = \partial J \partial h \cdot \partial h \partial z ( L ) \cdot \partial z ( L ) w ( L )

$\frac{\partial J}{\partial w^{(L)}}=\frac{\partial J}{\partial h}\cdot\frac{\partial h}{\partial z^{(L)}}\cdot\frac{\partial z^{(L)}}{w^{(L)}}$
其中

∂J∂h=−(yh−1−y1−h)=−(y−hh(1−h)) $\frac{\partial J}{\partial h}=-(\frac{y}{h}-\frac{1-y}{1-h})=-(\frac{y-h}{h(1-h)})$ ，我们根据第二接的定义可知，对于最后一层输出

h=a(L+1) $h=a^{(L+1)}$ ，而

∂h∂z(L)=f′(z(L)) $\frac{\partial h}{\partial z^{(L)}}=f'(z^{(L)})$ ，当

f $f$ 为sigmod函数时，

∂h∂z(L)=a(L+1)⋅(1−a(L+1)) $\frac{\partial h}{\partial z^{(L)}}=a^{(L+1)}\cdot(1-a^{(L+1)})$ ，而

z(L)w(L)=a(L) $\frac{z^{(L)}}{w^{(L)}}=a^{(L)}$ ，那么

\partial J \partial w ( L ) = - (y - a (L + 1)) \cdot a (L)

$\frac{\partial J}{\partial w^{(L)}}=-(y-a^{(L+1)})\cdot a^{(L)}$
可以看到，由于没有了

f′(⋅) $f'(\cdot)$ 项，

w $w$ 和

b $b$ 的更新将会比之前的quadratic函数快。
然而对于非最后一层的

w $w$ 和

b $b$ ，其残差项

δ (l) = δ (l + 1) \cdot w (l) \cdot f' (z (l - 1))

$\delta^{(l)}=\delta^{(l+1)}\cdot w^{(l)}\cdot f'(z^{(l-1)})$
也会随着bp算法向前传播而迅速趋近于0，导致底层参数更新慢。下图是基于quadratic cost和cross-entropy cost函数在mnist上运行后得到的结果比较。
代价函数变化曲线

可以看出，cross-entropy函数收敛速度快于quadratic cost函数。

2.参数初始化

对于初始的 $w$ 和 $b$ ，通常都是有标准正态分布随机产生，例如第 $l$ 层网络有 $n^{(l)}$ 个神经元，那么其对应到第 $l+1$ 层第 $k$ 个神经元，有

z (l + 1) k = \sum i = 1 n (l) w (l + 1) k, i \cdot a (l + 1) i

$z^{(l+1)}_{k}=\sum_{i=1}^{n^{(l)}}{w_{k,i}^{(l+1)}}\cdot a_{i}^{(l+1)}$
假设输入

a(l+1)i $a_{i}^{(l+1)}$ 都为1，那么由于

n(l) $n^{(l)}$ 个

w(l+1)k,i $w_{k,i}^{(l+1)}$ 服从标准正态分布，因此

z(l+1)k∼N(0,n(l)) $z^{(l+1)}_{k}\sim N(0,n^{(l)})$ 的正态分布，其分布如下：
1000-0正态分布

其中蓝色是标准正态分布，红色是N(0,100)的正态分布，可以看到，当

n(l)=100 $n^{(l)}=100$ 时，

z(l+1) $z^{(l+1)}$ 有很大概率落到值很大的地方，对于到之前的sigmod函数就可看到落在了梯度很小几乎为0的地方概率很大。而我们常用的网络

n(l) $n^{(l)}$ 远远大于100，那么

f′(z) $f'(z)$ 等于0的概率就更大，因此我们要对

w $w$ 的初始化做一些限制，使得z服从标准正态分布。我们在产生

w $w$ 和

b $b$ 时使其服从

N(0,1n(l)√) $N(0,\frac{1}{\sqrt{n^{(l)}}})$ 的正态分布，最后

z(l+1)k∼N(0,1) $z^{(l+1)}_{k}\sim N(0,1)$ ，梯度比之前远远要大。
下图是利用随机初始化和服从

N(0,1n(l)√) $N(0,\frac{1}{\sqrt{n^{(l)}}})$ 产生的结果对比
代价函数变化

可以看出，改善权重更新后，网络更新速度得以提升，结果也更好。

3.ReLU激活函数

因为之前的激活函数在函数两端梯度几乎为0，所以如果能换其他函数使得其在输入很大的情况下梯度不会非常小，那么网络收敛速度就不会受太大影响。ReLU激活函数就具备这样的性质，ReLU函数为

z = m a x (0, z)

$z=max(0,z)$
下图是三种激活函数的对比

可以看出，在横轴大于5时，sigmod和tanh函数梯度几乎为零，但是ReLU函数梯度不变一直为1.

4.Momentum-based gradient descent(动量梯度下降)

该方法出发点为，既然梯度每次都会下降，拿我们对其在其下降方向上对下降程度进行累加，如果每次下降方向相同，那么下降速度会越来越快。有

w = w + v

$w=w+v$

v = μ \cdot v - α \cdot \partial J \partial w

$v=\mu\cdot v-\alpha\cdot\frac{\partial J}{\partial w}$
这样，每次下降都会考虑到上次下降的程度（由

μ $\mu$ 控制），这样梯度会沿着下降最快的方向行进。下图是利用动量梯度下降和原始梯度下降的对比效果。
结果比对

Python项目

功能	函数
随机初始化函数	reset_qinit()
cross-entropy代价函数	backppg_cs()
momentum-based gradient decent	在调用TrainNet()时添加第二个参数”MO”以及最后一行输入”-p x”设置活跃神经元的比例

参考
[1] Michael Nielsen