KL散度,VAE
KL散度(相对熵)
衡量两个概率分布的距离,两个概率分布越相似,KL散度越小,交叉熵越小。表示已知q,p的不确定性程度-p的不确定性程度
- 交叉熵:表示已知分布p后q的不确定程度,用已知分布p去编码q的平均码长
- 交叉熵在分类任务中为loss函数
往往交叉熵比均方误差做loss函数好
1.均方差求梯度太小,在深度网络中,随着网络变深,会出现梯度消失,即梯度饱和问题,因此交叉熵做loss函数比较好。
2.均方误差是一个非凸的函数,cross-entropy是一个凸函数。
如两个高斯分布的KL散度KL(p1||p2)如下:
当其中一个是标准正太分布时,