在训练神经网络中,使用分类错误率或是均方差往往会丢掉很多有用的信息。
在训练神经网络中,使用分类错误率或是均方差往往会丢掉很多有用的信息。
作者观点
在使用神经网络做分类和预测的工作的时候,使用交叉熵模型来评估分类性能,往往要比分类错误率或是均方差模型更好。
实例
下面举个预测一个人属于哪个党派的例子。(来描述这个从的特征有很多,像年龄、性别、收入等。这里不讨论。)
将这个人的特征数据输入我们的分类模型,得到一组向量,来表示他/她属于哪个党派的概率。
模型一
预测结果 | 目标 | 正确吗? |
---|---|---|
0.3 0.3 0.4 | 0 0 1 (democrat) | yes |
0.3 0.4 0.3 | 0 1 0 (republican) | yes |
0.1 0.2 0.7 | 1 0 0 (other) | no |
稍微解释一下,第一行0.3 0.3 0.4 | 0 0 1 (democrat) | yes
的意思是:预测是other的概率是0.3;预测为republican的概率是0.3;预测是democrat的概率是0.4;而目标是democrat。
此时,
分类错误率:1/3 = 0.33
错误率
模型二
我们再看一个模型的分类结果。
预测结果 | 目标 | 正确吗? |
---|---|---|
0.1 0.2 0.7 | 0 0 1 (democrat) | yes |
0.1 0.7 0.2 | 0 1 0 (republican) | yes |
0.3 0.4 0.3 | 1 0 0 (other) | no |
分类错误率:1/3 = 0.33
但是,我们可以观察到,前两项的分类结果有明显不同,所以直观上讲,第二个模型要比第一个模型更可靠。
交叉熵错误率模型的效果
仍然通过上面两个例子,我们看一下交叉熵的表现如何。(有关「熵」的计算,可以参考《统计学习方法》的5.2.2节)
-
模型一
计算第一行的熵,二、三行同理。
-( (ln(0.3)*0) + (ln(0.3)*0) + (ln(0.4)*1) ) = -ln(0.4)
然后得到平均交叉熵错误率(average cross-entropy error, ACE)-(ln(0.4) + ln(0.4) + ln(0.1)) / 3 = 1.38
第一行的均方差
(0.3 - 0)^2 + (0.3 - 0)^2 + (0.4 - 1)^2 = 0.09 + 0.09 + 0.36 = 0.54
然后得到
(0.54 + 0.54 + 1.34) / 3 = 0.81
2. 模型二
ACE:-(ln(0.7) + ln(0.7) + ln(0.3)) / 3 = 0.64
均方差:(0.14 + 0.14 + 0.74) / 3 = 0.34
对比
项目 | 模型一 | 模型二 |
---|---|---|
ACE | 1.38 | 0.64 |
分类错误率 | 0.33 | 0.33 |
均方差 | 0.81 | 0.34 |
这样看起来ACE和均方差明显优于分类错误率,同时ACE和均方差相比差别不大。但是,考虑到均方差计算量要稍大于ACE。
总结
所以在应用上面三种方式评估结果的时候,要看你想做什么。
比如,你只想看在特定样本集上的结果的准确性,那就用分类错误率来评估。因为,此时你不需要知道得到每个结果的概率,这些对最终结果没有任何辅助说明意义。
但是,在训练分类模型,和长期评估的时候,ACE和均方差就会更远好一些。
个人理解
有时候,给出准确的结果反而会损失掉大量的信息。给出一个比较可信的概率值,反而会保留对结果更有帮助的信息。
原文:https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean-squared-error-for-neural-network-classifier-training/
翻译:http://www.sofamiri.com/blogs/8/