关于KL Divergence初识,看这两篇:
http://blog.csdn.net/buaalei/article/details/46516211
http://blog.csdn.net/acdreamers/article/details/44657745
给出了KLD的基本性质以及简单证明。
KLD主要衡量了在同一数据空间中,概率分布Q相对于真实概率分布P的差异。但是KLD的非对称性、无界性的性质也给它带来不少麻烦。
KLD有种衍生品叫做JSD,见这篇:
http://www.zealseeker.com/archives/jensen-shannon-divergence-jsd-python/
好吧,基本上只给了一个公式。JSD衡量了两种概率分布的相似性,具有对称性且取值在0-1之间,在某些情况下效果比KL好。
下面看这个:
https://www.zhihu.com/question/39872326?sort=created
发现f-Divergence其实是KL的进一步推广形式。
W-Divergence也是很火,
待更。。。