我觉得下面的文章讲得不错,通过穿衣服和天气例子的引入,一步步讲述编码长度等理论,引入交叉熵是为了表征预测结果与真实结果的差异
最重要的公式:
H
p
(
q
)
=
∑
x
q
(
x
)
l
o
g
2
(
1
p
(
x
)
)
H_p(q)=\sum_{x}q(x)log_2(\frac{1}{p(x)})
Hp(q)=x∑q(x)log2(p(x)1)
以及
D
q
(
p
)
=
H
q
(
p
)
−
H
(
p
)
D_q(p)=H_q(p)-H(p)
Dq(p)=Hq(p)−H(p)
原文链接(注:英文版):
http://neuralnetworksanddeeplearning.com/chap3.html#softmax