前言
最近在看GAN相关的文章,经常提到KL散度这一概念,为了加深印象以及方便复习,特意写在博客上。
KL散度用来做什么?
KL散度的用途:比较两个概率分布的接近程度。
在统计应用中,我们经常需要用一个简单的,近似的概率分布 f∗ f ∗ 来描述
观察数据 DD或者另一个复杂的概率分布 f f 。这个时候,我们需要一个量来衡量我们选择的近似分布
相比原分布 f f 究竟损失了多少信息量,这就是KL散度起作用的地方。
熵
为了更好的理解KL散度,在这里首先抛出熵的概念。在信息论这门学科中,一个很重要的目标就是量化描述数据中含有多少信息。 为此,提出了熵的概念,记作H,一个概率分布所对应的熵表达如下: