理解流程大致如下:
信息量X轴表示P y轴表示信息量
信息论
交叉熵是信息论中的一个概念,要想了解交叉熵的本质,需要先从最基本的概念讲起。
1 信息量
首先是信息量。假设我们听到了两件事,分别如下:
事件A:巴西队进入了2018世界杯决赛圈。
事件B:中国队进入了2018世界杯决赛圈。
仅凭直觉来说,显而易见事件B的信息量比事件A的信息量要大。究其原因,是因为事件A发生的概率很大,事件B发生的概率很小。所以当越不可能的事件发生了,我们获取到的信息量就越大。越可能发生的事件发生了,我们获取到的信息量就越小。那么信息量应该和事件发生的概率有关。
假设X是一个离散型随机变量,其取值集合为χ,概率分布函数,定义事件的信息量为:
由于是概率所以的取值范围是[0,1],绘制为图形如下:
可见该函数符合我们对信息量的直觉
2 熵
考虑另一个问题,对于某个事件,有n种可能性,每一种可能性都有一个概率p(xi)。
这样就可以计算出某一种可能性的信息量。举一个例子,假设你拿出了你的电脑,按下开关,会有三种可能性,下表列出了每一种可能的概率及其对应的信息量
注:文中的对数均为自然对数
我们现在有了信息量的定义,而熵用来表示所有信息量的期望,即:
其中n代表所有的n种可能性,所以上面的问题结果就是