深度学习框架TensorFlow学习与应用（三）——使用交叉熵作为代价函数

最新推荐文章于 2020-11-05 14:57:00 发布

那些很冒险的梦

最新推荐文章于 2020-11-05 14:57:00 发布

阅读量2k

点赞数

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/JluTiger316/article/details/78523912

版权

深度学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

二次代价函数（quadratic cost）：

这里写图片描述

其中，C表示代价函数，x表示样本，y表示实际值，a表示输出值，n表示样本的总数。

例如：

这里写图片描述

假如我们使用梯度下降法（Gradient descent）来调整权值参数的大小，权值w和偏置b的梯度推导如下：

这里写图片描述

其中，z表示神经元的输入。w和b的梯度跟激活函数的梯度成正比，激活函数的梯度越大，w和b的大小调整得越快，训练收敛得就越快。

假设我们的激活函数是sigmoid函数：

这里写图片描述

假如我们目标是收敛到1。A点为0.82离目标比较远，梯度比较大，权值调整比较大。B点为0.98离目标比较近，梯度比较小，权值调整比较小。调整方案合理。
假如我们目标是收敛到0。A点为0.82离目标比较近，梯度比较大，权值调整比较大。B点为0.98离目标比较远，梯度比较小，权值调整比较小。调整方案不合理。

交叉熵代价函数（cross-entropy）：

换一个思路，我们不改变激活函数，而是改变代价函数，改用交叉熵代价函数：

这里写图片描述

其中，C表示代价函数，x表示样本，y表示实际值，a表示输出值，n表示样本的总数。

这里写图片描述

权值和偏置值的调整与无关。另外，梯度公式中表示输出值与实际值的误差。所以当误差越大时，梯度就越大，参数w和b的调整就越快，训练的速度也就越快。
如果输出神经元是线性的，那么二次代价函数就是一种合适的选择。如果输出神经元是s型函数，那么比较适合用交叉熵代价函数。

对数释然代价函数（log-likelihood cost）：

对数释然函数通常用来作为softmax回归的代价函数，如果输出层神经元是sigmoid函数，可以采用交叉熵代价函数。而深度学习中更普遍的做法是将softmax作为最后一层，此时常用的代价函数是对数释然函数。

对数释然函数与softmax的组合和交叉熵与sigmoid函数的组合非常相似。对数释然代价函数在二分类时可以化简为交叉熵代价函数的形式。

在TensorFlow中用：
tf.nn.sigmoid_cross_entropy_with_logits()来表示跟sigmoid搭配使用的交叉熵。
tf.nn.softmax_cross_entropy_with_logits()来表示跟softmax搭配使用的交叉熵。

对比：

以MINST数据集分类进行对比。

二次代价的准确率为：

Iter 0,Testing Accuracy 0.8286
Iter 1,Testing Accuracy 0.8717
Iter 2,Testing Accuracy 0.8816
Iter 3,Testing Accuracy 0.8884
Iter 4,Testing Accuracy 0.895
Iter 5,Testing Accuracy 0.8966
Iter 6,Testing Accuracy 0.8983
Iter 7,Testing Accuracy 0.9013
Iter 8,Testing Accuracy 0.9031
Iter 9,Testing Accuracy 0.9048
Iter 10,Testing Accuracy 0.9062
Iter 11,Testing Accuracy 0.9073
Iter 12,Testing Accuracy 0.908
Iter 13,Testing Accuracy 0.9094
Iter 14,Testing Accuracy 0.9098
Iter 15,Testing Accuracy 0.9106
Iter 16,Testing Accuracy 0.9118
Iter 17,Testing Accuracy 0.9121
Iter 18,Testing Accuracy 0.9132
Iter 19,Testing Accuracy 0.9132
Iter 20,Testing Accuracy 0.9139

之后改用：
loss=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y,logits=prediction))

得到交叉熵的准确率：

Iter 0,Testing Accuracy 0.8249
Iter 1,Testing Accuracy 0.8942
Iter 2,Testing Accuracy 0.902
Iter 3,Testing Accuracy 0.9058
Iter 4,Testing Accuracy 0.9084
Iter 5,Testing Accuracy 0.9102
Iter 6,Testing Accuracy 0.9127
Iter 7,Testing Accuracy 0.9135
Iter 8,Testing Accuracy 0.9153
Iter 9,Testing Accuracy 0.9159
Iter 10,Testing Accuracy 0.917
Iter 11,Testing Accuracy 0.9187
Iter 12,Testing Accuracy 0.9193
Iter 13,Testing Accuracy 0.92
Iter 14,Testing Accuracy 0.9208
Iter 15,Testing Accuracy 0.9203
Iter 16,Testing Accuracy 0.9205
Iter 17,Testing Accuracy 0.9205
Iter 18,Testing Accuracy 0.922
Iter 19,Testing Accuracy 0.9216
Iter 20,Testing Accuracy 0.922