原文链接: 信息量: 事件发生概率越小信息量越大。 昨天下雨了,这件事情已经发生,既定了,信息量为0 对数函数,p(x_0)越小,负log越大 熵: 信息量的期望就是熵 KL散度: 交叉熵: 只有最后一部分有q(x_i),所以前面是常数,不用管。