神经网络的分类模型 LOSS 函数为什么要用 CROSS ENTROPY

忘记哪一位物理学家(Bohr?)说过:

一个物理问题,要能够同时从数学和非数学的形象化角度来理解,才是真的懂了。

我想,机器学习,也是一样的,一点尝试。

提纲

  1. 分类模型 与 Loss 函数的定义
  2. 为什么不能用 Classification Error
  3. Cross Entropy 的效果对比
  4. 为什么不用 Mean Squared Error
  5. 定量理解 Cross Entropy
  6. 总结
  7. 参考资料

分类模型 与 Loss 函数的定义

监督学习的 2 大分支:

  • 分类问题:目标变量是离散的。
  • 回归问题:目标变量是连续的数值。

本文讨论的是分类模型。

例如:根据年龄、性别、年收入等相互独立的特征, 预测一个人的政治倾向(民主党、共和党、其他党派)。

为了训练模型,必须先定义衡量模型好与坏的标准。

在机器学习中,我们使用 loss / cost,即, 当前模型与理想模型的差距。

训练的目的,就是不断缩小 loss / cost.

为什么不能用 classification error

大多数人望文生义的 loss,可能是这个公式。

classification error=count of error itemscount of all itemsclassification error=count of error itemscount of all items

我们用一个的实际模型来看 classification error 的弊端。

使用 3 组训练数据。

computed 一栏是预测结果,targets 是预期结果。 二者的数字,都可以理解为概率。 correct 一栏表示预测是否正确。

模型 1

COMPUTEDTARGETSCORRECT?
0.3 0.3 0.40 0 1 (democrat)yes
0.3 0.4 0.30 1 0 (republican)yes
0.1 0.2 0.71 0 0 (other)no

item 1 和 2 以非常微弱的优势判断正确,item 3 则彻底错误。

classification error=1/3=0.33classification error=1/3=0.33

模型 2

COMPUTEDTARGETSCORRECT?
0.1 0.2 0.70 0 1 (democrat)yes
0.1 0.7 0.20 1 0 (republican)yes
0.3 0.4 0.31 0 0 (other)no

item 1 和 2 的判断非常精准,item 3 判错,但比较轻。

classification error=1/3=0.33classification error=1/3=0.33

结论

2 个模型的 classification error 相等,但模型 2 要明显优于模型 1.

classification error 很难精确描述模型与理想模型之间的距离。

Cross-Entropy 的效果对比

如果使用 ACE ( average cross-entropy error ).

TensoFlow 官网的 MNIST For ML Beginners 中 cross entropy 的计算公式是:

Hy′(y):=−∑iy′ilog(yi)Hy′(y):=−∑iyi′log⁡(yi)

根据公式, 第一个模型中第一项的 cross-entropy 是:

−((ln(0.3)∗0)+(ln(0.3)∗0)+(ln(0.4)∗1))=−ln(0.4)−((ln(0.3)∗0)+(ln(0.3)∗0)+(ln(0.4)∗1))=−ln(0.4)

所以,第一个模型的 ACE ( average cross-entropy error ) 是

−(ln(0.4)+ln(0.4)+ln(0.1))/3=1.38−(ln(0.4)+ln(0.4)+ln(0.1))/3=1.38

第二个模型的 ACE 是:

(ln(0.7)+ln(0.7)+ln(0.3))/3=0.64(ln(0.7)+ln(0.7)+ln(0.3))/3=0.64

结论

ACE 结果准确的体现了模型 2 优于模型 1。

cross-entropy 更清晰的描述了模型与理想模型的距离。

为什么不用 Mean Squared Error (平方和)

若使用 MSE(mean squared error).

第一个模型第一项的 loss 是

(0.3−0)2+(0.3−0)2+(0.4−1)2=0.09+0.09+0.36=0.54(0.3−0)2+(0.3−0)2+(0.4−1)2=0.09+0.09+0.36=0.54

第一个模型的 loss 是

(0.54+0.54+1.34)/3=0.81(0.54+0.54+1.34)/3=0.81

第二个模型的 loss 是

(0.14+0.14+0.74)/3=0.34(0.14+0.14+0.74)/3=0.34

MSE 看起来也是蛮不错的。为何不用?

分类问题,最后必须是 one hot 形式算出各 label 的概率, 然后通过 argmax 选出最终的分类。 (稍后用一篇文章解释必须 one hot 的原因)

在计算各个 label 概率的时候,用的是 softmax 函数。

softmax(x)i=exp(xi)∑jexp(xj)softmax(x)i=exp⁡(xi)∑jexp⁡(xj)

如果用 MSE 计算 loss, 输出的曲线是波动的,有很多局部的极值点。 即,非凸优化问题 (non-convex)

non-convex

cross entropy 计算 loss,则依旧是一个凸优化问题,

用梯度下降求解时,凸优化问题有很好的收敛特性。

最后,定量的理解一下 cross entropy。 loss 为 0.1 是什么概念,0.01 呢?

cross-entropy-tablecross-entropy-graph

总结

分类问题,都用 onehot + cross entropy

training 过程中,分类问题用 cross entropy,回归问题用 mean squared error。

training 之后,validation / testing 时,使用 classification error,更直观,而且是我们最关注的指标。

参考资料

  1. 分类模型的本质是组合数学问题 A Tutorial on the Cross-Entropy Method
  2. 文中的对比模型来自:Why You Should Use Cross-Entropy Error Instead Of Classification Error Or Mean Squared Error For Neural Network Classifier Training
  3. 关于 cross entropy 与 MSE 的详细对比:Cross-Entropy-vs-Squared-Error-Training-a-Theoretical-and-Experimental-Comparison
  4. Ng 的公开课中有详细讨论 logistic regression 的 loss 函数
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值