文章:距离度量–熵,KL散度,JS散度,GAN相关应用
信息量
- 信息量描述为消除随机变量不确定性所需要的信息量多少。某个事件越不确定,所需要的信息也就越多,才能够让其确定下来。比如买衣服是否合身,是十分不确定的,如果提供了肩宽、胸围、腰围、臀围等信息,那么不确定性就降低了,如果直接是裁缝直接来量着做,臂长、肩宽、胸围、腰围、上身长、臀围等等都量一遍,那么做出来的衣服很难不合身,此时不确定性几乎为零。也就是,提供的信息越多,事件的不确定性也就降低了。
随机事件的概率在(0,1)之间,描述信息量的大小采用log函数的(0,1)部分,并将其上下颠倒:
公式如下:
信息熵
- 信息熵描述随机变量X在整个样本空间上的不确定性,或者需要的信息量大小。上式描述的是在某个取值的时候包含的信息量,而此时在整个样本空间上就需要加权求和。也就是求期望值。
交叉熵
p为真实分布,而q为拟合分布。对于拟合分布要消除不确定性需要的信息熵的大小为:
相对熵 或 KL散度
衡量真实的信息熵与拟合分布的信息熵之间的差值:相对熵 = 交叉熵 - 信息熵,其描述的是两个分布之间的差异。
其不能作为距离,不满足对称性以及三角不等式:
JS距离
由于KL散度不满足距离的要求,通过修改,使其满足要求即可: