• 熵(信息熵): 描述一个事件的不确定性,一个事件越不确定,它的熵就越大。 • 自信息(信息量): 单个事件的不确定性。 • 相对熵: 我们称为 KL 散度,衡量两个分布之间的差异。 交叉熵=信息熵+相对熵 交叉熵: 自信息: 熵(P分布确定,该数值为常数): 相对熵: