交叉熵,一般用来求目标值与预测值之间的差距。
1. 信息量
信息量是指多少的量度,一般认为发生概率低事件的信息量较大。
一般用log函数来描述,其中I表示信息量
$$ I(x_0) = - log(p(x_0)) $$
2. 熵
对于某个事件,有n种可能性,每一种可能性都有一个概率\( p(x_0)\)
而熵就是用来表示所有信息量的期望,即:
$$ H(X) = - \sum_ {i=1}^{n} p(x_i) log(p(x_i)) $$
有一种比较特殊的问题,结果只有两种可能性(比如抛硬币)
$$ H(X) = - \sum_ {i=1}^{n} p(x_i) log(p(x_i)) \\
H(X) = - p(x) log(p(x)) - (1 - p(x) log(1 - p(x)) $$
3. 相对熵(KL散度)
用来衡量两个分布的差异
比如有两个单独的概率分布 P(x) 和 Q(x)