信息熵
- 信息熵是消除不确定性所需信息量的度量
- 信息熵是信息的不确定程度
- 信息熵越小,信息越确定
- \(信息熵=\sum\limits_{x=1}^n(信息x发生的概率\times{验证信息x所需信息量})\)
- 今年中国取消高考了,这句话我们很不确定(甚至心里还觉得这TM是扯淡),那我们就要去查证了,这样就需要很多信息量(去查证);反之如果说今年正常高考,大家回想:这很正常啊,不怎么需要查证,这样需要的信息量就很小。
- 根据信息的真实分布,我们能够找到一个最优策略,以最小的代价消除系统的不确定性,即最小信息熵
- 概率越低,需要越多的信息去验证,所以验证真假需要的信息量和概率成反比。我们需要用数学表达式把它描述出来,推导:
考虑一个离散的随机变量 ,已知信息的量度依赖于概率分布 ,因此我们想要寻找一个函数 ,它是概率 的单调减函数(因为\(p(x)\)越大,所需要的信息量就越小),表示信息量
怎么寻找呢?如果我们有两个不相关的事件 和 ,那么观察两个事件同时发生时获得的信息量应该等于观察到事件各自发生时获得的信息之和,即:
因为两个事件是独立不相关的,因此
根据这两个关系,很容易看出 一定与 的对数有关。
由对数的运算法则可知:
因此,我们有
其中负号是用来保证信息量是正数或者零。而 函数基的选择是任意的(信息论中基常常选择为2,因此信息的单位为比特bits;而机器学习中基常常选择为自然常数,因此单位常数被称为奈特nats)。 也被称为随机变量 的自信息 (self-information),描述的是随机变量的某个事件发生所带来的信息量。
信息熵即所有信息量的期望:
其中 为事件的所有可能性。
相对熵(KL散度)
相对熵又称KL散度,如果对于同一个随机变量\(x\)有两个单独的概率分布 和 ,可以使用相对熵来衡量这两个分布的差异。
注: 越小,表示p(x)和q(x)的分布越近。
交叉熵
交叉熵公式:
相对熵的推导:
在机器学习中,往往用 用来描述真实分布, 用来描述模型预测的分布。
计算损失,理应使用相对熵来计算概率分布的差异,然而由相对熵推导出的结果看:
由于信息熵描述的是消除 (即真实分布) 的不确定性所需信息量的度量,所以其值应该是最小的、固定的。那么:优化减小相对熵也就是优化交叉熵,所以在机器学习中使用交叉熵就可以了。
交叉熵损失函数
为什么使用交叉熵
- 理由一:我们希望模型在训练数据上学到的预测数据分布与真实数据分布越相近越好,即最小化相对熵,等价于最小化交叉熵
- 理由2: