从香农信息量、信息熵和交叉熵到GANs中的KL散度和JS散度

最新推荐文章于 2023-11-21 21:34:56 发布

C小C

最新推荐文章于 2023-11-21 21:34:56 发布

阅读量448

点赞数 1

分类专栏： GANs 文章标签： KL散度 JS散度交叉熵

GANs 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

【时间】2019.01.14

【题目】从香农信息量、信息熵和交叉熵到GANs中的KL散度和JS散度

概述

本文转载自生成对抗网络（GANs）系列文章之一：KL散度和JS散度，侵权删。

主要从香农信息量、信息熵和交叉熵开始讲起，到引导出GANs中的KL散度和JS散度的概念，并介绍他们之间的关系。

一.香农信息量、信息熵和交叉熵

只考虑连续型随机变量的情况。设p为随机变量X的概率分布，即p(x)为随机变量X在X=x处的概率密度函数值，随机变量X在x处的香农信息量定义为：

其中对数以2为底，这时香农信息量的单位为比特。香农信息量用于刻画消除随机变量X在x处的不确定性所需的信息量的大小。如随机事件“中国足球进不了世界杯”不需要多少信息量（比如要不要多观察几场球赛的表现）就可以消除不确定性，因此该随机事件的香农信息量就少。再比如“抛一个硬币出现正面”，要消除它的不确定性，通过简单计算，需要1比特信息量，这意味着随机试验完成后才能消除不确定性。

刚才定义了随机变量在一个点处的香农信息量，那么如何衡量随机变量X（或整个样本空间）的总体香农信息量呢？下面就要引出随机变量X的信息熵的概念，或概率分布p的信息熵。信息熵H(p)是香农信息量-logp(x)的数学期望，即所有X=x处的香农信息量的和，由于每一个x的出现概率不一样（用概率密度函数值p(x)衡量），需要用p(x)加权求和。因此信息熵是用于刻画消除随机变量X的不确定性所需要的总体信息量的大小。其数学定义如下：

交叉熵是什么呢？

假设q(x)是用来拟合p(x)的概率分布，x属于p的样本空间，交叉熵用于衡量q在拟合p的过程中，用于消除不确定性而充分使用的信息量大小（理解为衡量q为了拟合p所付出的努力，另外注意交叉熵定义里的“充分使用”和信息熵定义里的“所需”的区别，“充分使用”不一定能达到全部，“所需”是指全部）。由于在每一个点X=x处q的香农信息量为-logq(x)，也就是在点X=x处，q消除不确定性而充分使用的信息量为-logq(x)（理解为衡量q在X=x处为了拟合p所作的努力），那么就可以计算出在整个样本空间上q消除不确定性而充分使用的总体信息量，即-logq(x)的数学期望，由于每个x的权重为p(x)，因此交叉熵H(p,q）为：

二、KL散度

两个概率分布p和q的KL散度（Kullback–Leibler divergence）也称为相对熵，用于刻画概率分布q拟合概率分布p的程度。在生成对抗网络里，p为真实数据的概率分布，q为随机噪声生成数据的概率分布，对抗的目的是让q充分拟合p。在q拟合概率分布p的过程中，如果q完全拟合p，自然有H(p)=H(p,q)，如果q拟合p不充分，自然产生信息损耗H(p)-H(p,q)，整个信息损耗就是p和q的KL散度。因此p和q的KL散度的定义如下：