最近在做GAN相关的东西,导师推荐了一篇生成模型评估的文章,读一读当作笔记。
作者:LucasTheis∗ University of T¨ubingen 72072 T¨ubingen, Germany lucas@bethgelab.org
A¨aronvandenOord∗† Ghent University 9000 Ghent, Belgium aaron.vandenoord@ugent.be
MatthiasBethge University of T¨ubingen 72072 T¨ubingen, Germany matthias@bethgelab.org
发表会议:ICLR 2016
摘要
概率图模型在各种场合都有大范围应用,所以这些模型的形成、训练和评估存在很大的异质性(heterogeneity)也就很正常了,所以一般很难直接比较两个模型。本文测评了三个目前最常用的准则,average log-likelihood,Parzen window estimas,and visual fidelity of samples。当数据是高维的时候,这三个准则,没有任何相关性,是独立的,意思就是一个准则好,另一个不一定也好。
结论就是,不能从一个准则直接推断另一个在准则,需要根据不同的应用场景进行合适的评估,另外也说了尽量避免使用parzen窗估计。
介绍
本文首先展示了基于KL散度和JSD和mmd优化过程导致不同的tradeoff的结果。
然后讨论了,log-likelihood和分类性能,parzen窗估计,样本保