深度神经网络调参之损失函数

最新推荐文章于 2024-06-19 09:29:16 发布

nwnlp

最新推荐文章于 2024-06-19 09:29:16 发布

阅读量2.3k

点赞数

分类专栏：深度学习文章标签：神经网络损失函数交叉熵损失函数深度学习调参

本文链接：https://blog.csdn.net/m0_37490039/article/details/79410327

版权

深度学习专栏收录该内容

6 篇文章 13 订阅

订阅专栏

TED有这样一个演讲How to learn from mistakes,演讲者主要分享了一些学习的体会，其中最主要的就是如何从自己犯过的错误中学习。我们自己学习工作中应该很有体会，踩过的坑下次就知道了。相反如果学习过程中一点错误都没用，那就需要担心自己的学习效率了。
好了，这里不是鸡汤文，还是谈谈正题吧。

梯度消失

我们同样希望自己搭建出来的神经网络能够从它的错误中学得最快，当然它们的错误由损失函数来定义。实际应用中，它是不是乖乖地学得快呢？来看一个小例子。
这里写图片描述
我们之引入三个神经元，一个输入，一个隐藏，一个输出(图上只画了隐藏神经元)。我们现在输入1，算法将学习合适的w,b使得输出为0。我们现在给w,b初始化不同的值，观察算法的学习效率。首先我们初始化w=0.6,b=0.9(注意此时的w不再是矩阵形式了)。
损失函数我们采用差平方，学习率为0.15。
下面给出该例子用tensorflow实现的源码

import tensorflow as tf
xs = tf.placeholder(tf.float32)
ys = tf.placeholder(tf.float32)

w = tf.Variable(tf.constant(0.6))
b = tf.Variable(tf.constant(0.9))

y = tf.nn.sigmoid(w*xs+b)
loss = tf.pow(ys-y, 2)/2
train_step = tf.train.GradientDescentOptimizer(0.15).minimize(loss)
sess = tf.Session()
# important step
sess.run(tf.initialize_all_variables())
for i in range(300):
    _,y_o = sess.run([train_step,y], feed_dict={xs: 1, ys: 0})
    print(y_o)

现在以训练的次数为横坐标，输出y为纵坐标。曲线的平滑程度可以反映出学习的效率。
这里写图片描述

图1

再来看个例子，现在我们把w和b都初始化为2，看看效果如何

这里写图片描述

图2

对比两张图可以看出，图一的算法学的很快，迅速把自己的输出逼近于0，最终的y大约在0.1。而图二呢？学得很慢，在150steps之前基本没怎么动，而最终的y大约在0.2。
越大的y意味着损失函数的值越大，所以如果用损失函数的值作为纵坐标的话得到的曲线的平滑程度和y是一致的。
越大的损失函数值也就意味着模型“犯的错“越大，仔细观察图2，发现算法在“犯错“很大的时候学得却很慢，这个和我们人是相反的，我们在犯了很大错误的时候通常都能接受教训学得很快。我们能不能找到这个问题的根本原因，从而避免这种情况的出现呢？

我们都知道，梯度下降法就是让参数沿着自己的梯度方向走，那算法学的慢是不是意味着参数的偏导值不够大呢(当然还受到learning rate的影响)，那么我们就来看看这个例子中参数的偏导。首先定义损失函数，y表示真实的输出,也就是上例中的0(注意这里的y定义与刚刚不同)，a表示我们模型的输出

C = ( y - a ) 2 2 (1)

$\begin{eqnarray} C = \frac{(y-a)^2}{2} \tag{1}\end{eqnarray}$

$x$ 表示输入， $z$ 表示隐藏神经元的输入，则有 $z = wx+b$ 通过激活函数后则有 $a =\sigma(z)$ ，不难求得

\partial C \partial w \partial C \partial b = = (a - y) σ' (z) x (a - y) σ' (z) (2) (3)

$\begin{eqnarray} \frac{\partial C}{\partial w} & = & (a-y)\sigma'(z) x \tag{2}\\ \frac{\partial C}{\partial b} & = & (a-y)\sigma'(z) \tag{3}\end{eqnarray}$

可以推断出 $\partial C / \partial w$ 与 $\partial C / \partial b$ 的大小取决于 $\sigma^{'}(z)$ ,下面是损失函数 $\sigma$ 的图像

这里写图片描述

上图可以看出当 $z>1$ 或者 $z<-1$ 的时候,函数曲线趋于平滑，其导数值也就趋向于0。
我们再来看看上面例子2中 $z$ 的变化曲线

这里写图片描述

可以看出在step150之前， $z$ 的值都是大于2的，也意味着在这之前的 $\sigma^{'}(z)$ 的值都是很小很小的，这才导致了我们算法学得很慢。

到此，我们找出了例2相比于例1训练速度慢的真正原因了:如果权重初始化得太大，激活后的值基本在sigmoid两侧，而这两侧的梯度几乎为0。那是不是选择小的初始化权值就可以避免这个问题呢？上述例子看上去是这样的。（如何合理初始化权值可以参阅深度神经网络调参之权值初始化）事实上我们的神经网络会有很多个神经元组成，这样的神经元分布在不同的网络层上，很容易出现一些神经元的值跑到sigmoid两侧去，这样经过几层传播，就带来了梯度消失。如何解决这个问题呢？当然，可以换成其他激活函数，如：ReLu等，事实上sigmoid在实际应用中并不是一个很好的激活函数。还有一个办法就是引入其他损失函数。