特色 常见的有很多衡量概率分布差异的度量方式,比如total variation(TRPO推导里面有用到),还有经常被用到的KL散度。相比于这些度量方式,Wasserstein距离有如下一些好处。 能够很自然地度量离散分布和连续分布之间的距离;不仅给出了距离的度量,而且给出如何把一个分布变换为另一分布的方案;能够连续地把一个分布变换为另一个分布,在此同时,能够保持分布自身的几何形态特征;