神经网络三：浅析神经网络backpropagation算法中的代价函数

最新推荐文章于 2024-05-22 13:23:29 发布

Bixiwen_liu

最新推荐文章于 2024-05-22 13:23:29 发布

阅读量5.2k

点赞数 4

分类专栏：深度学习

本文链接：https://blog.csdn.net/Bixiwen_liu/article/details/52922008

版权

深度学习专栏收录该内容

33 篇文章 6 订阅

订阅专栏

在博客神经网络一：介绍，示例，代码中，Backpropagation Algorithm中用到了代价函数： $\begin{align}J(W,b; x,y) = \frac{1}{2} \left\| h_{W,b}(x) - y \right\|^2.\end{align}$ 该代价函数是否是最好的?其有没有自身的局限性?还有其他的代价函数吗，有何特点？本文将针对这些问题进行分析。具体的分析是借鉴麦子学院的相关课程中的内容。

1 代价函数(二次cost) $\begin{align}J(W,b; x,y) = \frac{1}{2} \left\| h_{W,b}(x) - y \right\|^2.\end{align}$

假设有一个神经网络模型：

该模型很简单，只有一个输入，一个神经元，一个输出。假设输入值x=1, 真实输出值y=0。初始w=0.6,b=0.9,学习率为0.15，使用的f函数为 sigmoid函数： $\textstyle f(z) = 1/(1+\exp(-z))$ 。我们最终的目标是求得预测值a接近0或等于0。将相关参数值带入，求得第一次正向的最后的预测值输出为a=0.82。接下来就要进行反向传播算法，代价函数和循环迭代次数（epoch）的函数关系如下图：

从图可以看到，一开始迭代的时候代价函数就下降很快。当迭代次数为100的时候代价函数基本上就开始收敛，迭代到300的时候最后的输出为0.09，已经很接近目标值0了。此时的权重w=-1.28，偏向值b=-0.98。

上面的过程都建立在初始值得基础上得到的，重新改变初始值：w=2.0,b=2.0,学习率还是0.15，此时第一次正向的输出值为：0.98再z进行 Backpropagation Algorithm的迭代，如下图;

当迭代到300次时，输出为0.20，也可以认为接近0，当该图在迭代次数为160左右的时候才开始下降，开始学习。对比于上面的情况，可以看出模型开始下降很快的迭代次数是不一样的，即学习情况是不一样的。为什么后一种情况“学习慢”这是为什么呢？

原因分析为：

由公式 $\begin{align}W_{ij}^{(l)} &= W_{ij}^{(l)} - \alpha \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) \\b_{i}^{(l)} &= b_{i}^{(l)} - \alpha \frac{\partial}{\partial b_{i}^{(l)}} J(W,b)\end{align}$ 可以看出，学习慢（更新迭代慢）是因为

的值很小造成的，

值小和代价函数有关，分析使用的代价函数：

$\begin{align}J(W,b; x,y) = \frac{1}{2} \left\| h_{W,b}(x) - y \right\|^2.\end{align}$

对于模型只有一个x,一个神经元，一个输出y时，代价函数可以改为：

J = （y-a）*（y-a）/2。其中的a=f(z),z=wx+b。

将J分别关于w和b 求偏导，并将x=1,y=0带入得：

所以

都和f(z）的导数有关，即和f(z)有关，而 $\textstyle f(z) = 1/(1+\exp(-z))$ ,即sigmoid函数，下面分析sigmoid函数，如图为sigmoid函数的图形：

观察图形得到，当f(z)快接近1（或接近0）的时候，其变化很小，变化很小即f(z)导数很小，则

的值就会小，更新就会很慢，即学习就会慢。直接从f(z)的导数 $\textstyle f'(z) = f(z) (1-f(z))$ 也可以看出。

综上分析可知学习的快慢和代价函数是有关系的，只用代价函数为 $\begin{align}J(W,b; x,y) = \frac{1}{2} \left\| h_{W,b}(x) - y \right\|^2.\end{align}$ 未必一定是最好的，那么是否还有其他的代价函数来解决上述学习慢的情况呢？是否能解决学习慢，效率低的区问题呢？下面将进行分析。