说在前面的话
最近几天在看VAE(variational auto-encoder)相关的资料,自己也是第一次接触到,在网上陆陆续续看了一些资料和视频,从看不懂,到迷迷糊糊,再到理解并用代码实现,这也花费了我将近两天的时间,所以,如果你也和我一样刚接触到,请耐心地多翻阅资料,看完本文并理解本文可能会需要花费你比较多时间。本文中,我会尽力把概念描述得更加intuitive,把数学公式推导过程列出,再最后对结果做一个解释。
如果有理解或表述不当,大家在评论下留言啦~ ?
0. 预备知识
0.1 信息量
在信息理论中,我们用以下式子来量化一个事件 x x x的信息量 I ( x ) I(x) I(x):
I ( x ) = − l o g p ( x ) , p ( x ) 为 事 件 x 发 生 的 概 率 I(x)=-logp(x),p(x)为事件x发生的概率 I(x)=−logp(x),p(x)为事件x发生的概率
当 l o g log log底数为e时,信息量的单位为nat(奈特),当 l o g log log底数为2时,信息量的单位为bit(比特)。
0.2 信息熵(Entropy)
此外,如果用以下两个式子分别来表示随机变量 X X X在离散和连续情况下的信息熵 H H H:
H = ∑ − l o g p ( x ) ∗ p ( x ) H = ∫ − l o g p ( x ) ∗ p ( x ) d x H=\sum{-logp(x)*p(x)} \\ H=\int{-logp(x)*p(x)dx} H=∑−logp(x)∗p(x)H=∫−logp(x)∗p(x)dx
信息熵可以看做是对信息量的期望。
0.3 K-L散度(Kullback-Leibler divergence)
K-L散度又被称为相对熵(relative entropy),是对两个概率分布间差异的非对称性度量。
假设 p ( x ) , q ( x ) p(x), q(x) p(x),q(x)是随机变量 上的两个概率分布,则在离散和连续随机变量的情形下,相对熵的定义分别为:
K L ( p ( x ) ∣ ∣ q ( x ) ) = ∑ p ( x ) l o g p ( x ) q ( x ) K L ( p ( x ) ∣ ∣ q ( x ) ) = ∫ p ( x ) l o g p ( x ) q ( x ) d x KL(p(x)||q(x))=\sum{p(x)log\frac{p(x)}{q(x)}} \\ KL(p(x)||q(x))=\int{p(x)log\frac{p(x)}{q(x)}}dx KL(p(x)∣∣q(x))=∑p(x)logq(x)p(x)KL(p(x)∣∣q(x))=∫p(x)logq(x)p(x)dx
注意!K-L散度不是对称的,它不是描述两个分布之间的距离,因为按照上述定义, K L ( p ( x ) ∣ ∣ q ( x ) ) ≠ K L ( q ( x ) ∣ ∣ p ( x ) ) KL(p(x)||q(x))\ne KL(q(x)||p(x)) KL(p(x)∣∣q(x))=KL(q(x)∣∣p(x))
0.4 贝叶斯公式(Bayes Rule)
这个就不多讲了,为了和下述的notation保持一致,公式表述如下
p ( z ∣ x ) = p ( z , x ) p ( x ) = p ( x ∣ z ) p ( z ) p ( x ) p(z|x)=\frac{p(z,x)}{p(x)}=\frac{p(x|z)p(z)}{p(x)} p(z∣x)=p(