神经网络学习（八）优化方法：交叉熵代价函数

最新推荐文章于 2022-07-30 19:27:32 发布

oio328Loio

最新推荐文章于 2022-07-30 19:27:32 发布

阅读量1.5k

点赞数 1

分类专栏：神经网络

本文链接：https://blog.csdn.net/hoho1151191150/article/details/79595217

版权

神经网络专栏收录该内容

20 篇文章 81 订阅

订阅专栏

##回顾
上一节完成了BP神经网络的Python实现，并稍微改进了分类效果。下面是三层网络 [784,30,50,10]，mini_batch_size = 10, eta = 3.0 的结果，

识别率基本保持在96.5%-97.0%，多次实验识别率也不能在提高了。下面继续进行学习，学习其他的优化方法。

##问题
我们通常是在犯比较严重的错误时学习的较快。但是人工神经元在其犯错较大的情况很难学习。为何学习如此缓慢？我们能够找到避免这种情况的方法吗？
首先回顾下BP算法中的四个基本公式
${\bf{\delta }}^L = \nabla_a C .* \sigma'({\bf{z}}^L)\tag{BP1}$ $\delta^l = (({\bf{w}}^{l+1})^T \delta^{l+1}) .* \sigma'({\bf{z}}^l)\tag{BP2}$ $\frac{\partial C}{\partial b^l_j} = \delta^l_j\tag{BP3}$ $\frac{\partial C}{\partial w^l_{jk}} = a^{l-1}_k \delta^l_j\tag{BP4}$
上面公式显示，代价函数的偏导数（ $\partial C/\partial w$ 和 $\partial C/\partial b$ ）决定了速度学习，额 $\partial C/\partial w$ 和 $\partial C/\partial b$ 的计算依赖于激活函数的导数。如果我们利用sigmoid激活函数（如下图），当神经元的输出接近 $1$ 的时候，曲线变得相当平，所以 $\sigma'(z)$ 就很小了。这其实就是学习缓慢的原因所在。

针对这个问题，使用其他性质更好的激活函数（比如ReLU激活函数）是一种解决方法。当然，我们也可以构造出一种新的代价函数，这个代价函数可以消除掉激活函数导数的影响。
##交叉熵代价函数
下面直接给出交叉熵代价函数的定义 $-\frac{1}{n} \sum_x \left[y \ln a + (1-y ) \ln (1-a) \right]\tag{1}$ 其中 $n$ 是训练数据的总数，求和是在所有的训练输入 $x$ 上进行的， $y$ 是对应的目标输出。由上面的交叉熵函数的定义，我们看看 $\delta$ 的形式 ${\bf{\delta }}^L = \nabla_a C \odot \sigma'({\bf{z}}^L) = \frac{1}{n} \sum_x \frac{\sigma'(z)}{\sigma(z) (1-\sigma(z))} (\sigma(z)-y)\tag{2}$ 根据 $\sigma(z) = 1/(1+e^{-z})$ 的定义，和一些运算，我们可以得到 $\sigma'(z) = \sigma(z)(1-\sigma(z))$ 。我们看到 $\sigma'(z)$ 和 $\sigma(z)(1-\sigma(z))$ 这两项在方程中直接约去了，所以最终形式就是： ${\bf{\delta }}^L = \frac{1}{n} \sum_x (\sigma(z)-y)\tag{3}$ 从公式(BP2)看，即使最后一层的 $\sigma'(z^L)$ 消除了，但是从最后一层向前一层传递误差时，我们仍旧需要计算 $\sigma'(z^L_j)$ 的。这一点没有理解透彻。

我们应该在什么时候⽤交叉熵来替换⼆次代价函数？实际上，如果在输出神经元是 sigmoid神经元时，交叉熵⼀般都是更好的选择。为什么？考虑⼀下我们初始化⽹络的权重和偏置时通常使⽤某种随机⽅法。可能会发⽣这样的情况，这些初始选择会对某些训练输⼊误差相当明显 —— ⽐如说，⽬标输出是 1，⽽实际值是 0，或者完全反过来。如果我们使⽤⼆次代价函数，那么这就会导致学习速度的下降。它并不会完全终⽌学习的过程，因为这些权重会持续从其他的样本中进⾏学习，但是显然这不是我们想要的效果。

##测试
由于单独修改一个因素，很难提升神经网络的总体性能，我们做的测试仅仅是感性地认识下这个优化方法的性能。程序修改十分简单，只要讲gnetwork.py中update_mini_batch()函数中的 *delta = (a[-1]-y_train)*sigmoid_prime(z[-1])修改为delta = (a[-1]-y_train)*即可。下面是运行结果

网络结构 [784,30,10]，mini_batch_size = 50, learning_rate = 1

相比于上一节中使用sigmoid激活函数的结果相比，确实提高了识别率。下面是网络结构为[784,30,50,10]，mini_batch_size = 100, learning_rate = 0.5 的结果

遗憾的是，就自己编写的这个浅层BP神经网络，将ReLU激活函数和交叉熵代价函数结合起来，识别率反而没有单一方法识别率高。

##softmax和交叉熵
倘若，我们采用如下的sofmax分类器 $a_i = \frac{e^{z_i}}{\sum_k e^{z_k}}\tag{4}$ softmax 函数能够把一组向量转换成相对应的概率向量。如果我们使用均方误差代价函数或者上面的交叉熵函数（2），我们均需要计算 softmax 函数的导数。一般与 softmax 函数配合使用的交叉熵代价为 ${\sum}_i y_i\text{ln}(a_i^L)\tag{5}$ 在多分类问题中，标签 $y$ 一般采用 one-hot 编码，即只有对应类别的位置为 1，其他位置为 0，那么交叉熵代价函数简化为： $\text{ln}(a_i^L)\tag{6}$ 下面我们看看 $\delta^L$ 的形式 $\delta^L_i = -\nabla_{a^L _i}C\cdot \sigma'({\bf{z}}_i^L) \\=- \frac{y_i}{a_i^L}\left( \frac{e^{z_i}}{\left( {\sum_k e^{z_k}} \right)^2}-\frac{e^{z_i}}{\sum_k e^{z_k}} \right) \\ = y_i \left(a_i^L-1\right)\tag{7}$ Michael Nielsen 给出的形式是 $\delta^L_i = a_i^L-y_i\tag{8}$ 与上面我自己推导的公式稍有不同。假如对一个样本 $y_i = 0$ ，按照公式（7）,则 $\delta^L_i = 0$ ，而公式（8）得到是 $\delta^L_i = a_i^L$ ，显然公式（8）训练的速度更快（因为它的每个输出神经元都参与了误差传递，而公式（7）仅仅只有 1 个输出神经元都参与了误差传递）。但是公式（7）应该没有推导错误，不知道哪个地方出了理解偏差。

（2018-3-22补充）公式（7）的推导确实是错误的。公式（5）可以分为 $i = j$ 和 $i\neq j$ 部分，即 ${\sum_ {j \neq i}} y_j\text{ln}(a_j^L)+y_i\text{ln}(a_i^L)\tag{9}$ 那么 $\begin{array}{l} \delta _i^L = \sum\limits_j {\frac{{\partial C}}{{\partial a_j^L}}} \cdot \frac{{\partial a_j^L}}{{\partial z_j^L}}\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \sum\limits_{j \ne i} {\frac{{\partial C}}{{\partial a_j^L}}} \cdot \frac{{\partial a_j^L}}{{\partial z_j^L}} + \frac{{\partial C}}{{\partial a_i^L}} \cdot \frac{{\partial a_i^L}}{{\partial z_i^L}}\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \sum\limits_{j \ne i} { - \frac{{{y_j}}}{{a_j^L}}} \cdot \frac{{ - {e^{{z_j}}} \cdot {e^{{z_i}}}}}{{{{\left( {\sum\nolimits_k {{e^{{z_k}}}} } \right)}^2}}} + \left( { - \frac{{{y_i}}}{{a_i^L}}\frac{{{e^{{z_i}}}\sum\nolimits_k {{e^{{z_k}}}} - {{\left( {{e^{{z_i}}}} \right)}^2}}}{{{{\left( {\sum\nolimits_k {{e^{{z_k}}}} } \right)}^2}}}} \right)\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \sum\limits_{j \ne i} {\frac{{{y_j}}}{{a_j^L}}} \cdot a_j^L \cdot a_i^L + \left( { - \frac{{{y_i}}}{{a_i^L}}} \right)a_i^L\left( {1 - a_i^L} \right)\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \sum\limits_{j \ne i} {{y_j}} \cdot a_i^L + {y_i}a_i^L - {y_i}\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = a_i^L - {y_i} \end{array}$ 公式（7）实际上丢掉了 $\neq i$ 的那一部分了，所以是错误的。