从字面分析交叉熵,1是交叉、2是熵(熵与信息量有关);首先交叉熵涉及信息论里面的东西,想要彻底理解交叉熵就要明白此概念跟信息量的关系以及里边的熵怎么理解。
(1)信息量
衡量信息量可以用大小或者多少来形容,就是你传达的信息能别人带来多大的价值感吧,首先我说明天会下雨,这句话的信息量有多少呢?(我也不知道啊,哈哈)但是你说中国疫情现在已经结束了;mei国疫情也已经结束了。显然仅凭直觉,我们可以看出你要传达的第二句话比第一句话的信息量要大,因为中国的疫情我们大家很显然知道已经结束了,这句话发生概率几乎为1,而meiguo刚刚我们观察还处在很严重的阶段,你说他已经结束了这件事发生的概率很小几乎为0,但是你传达给我了一个几乎不会发生的事情发生了。证明我获得了我不知道的信息得到了很大的信息量。
由此我们可以总结出:那么信息量应该和事件发生的概率有关。所以当越不可能的事件发生了,我们获取到的信息量就越大;越可能发生的事件发生了,我们获取到的信息量就越小。因此一个具体事件的信息量应该是随着其发生概率而递减的,且不能为负。
因此衡量信息量大小的公式为:
假设X是一个离散型随机变量,其取值集合为