最优传输系列是基于Computational Optimal Transport开源书的读书笔记
2.4 用最优传输定义距离
在各种机器学习算法中,距离的定义都是至关重要的,经常对算法的性能有极大的影响,也是设计算法时最需要考虑的几点之一。举个简单的例子,同一个聚类算法用不同的距离计算,会得到完全不同的结果。在很多情况下,我们最熟悉的L2距离就已经很好了,不过用高级数学找到更好的距离计算方式,有时就能更上一层楼。
在这一节里,我们来认识最优传输在距离方面的贡献-Wasserstein distance
书中eq 2.17一句简短的公式,就把Wasserstein 距离定义完了,可能一开始比较难理解。不过没有关系,我们分析一下这个定义,以及它和 L 2 L^2 L2之间本质的区别,这个概念也就很清楚了。
eq 2.17本身意义很简单,定义p-Wasserstein W P W_{P} WP等于以 D P D^P DP为cost matrix的,从概率分布a到b的Kantorovich传输代价的 1 P \frac{1}{P} P1次方
那么我们举个 P = 1 P=1 P=1的实际例子:
(注: W 1 W_{1} W1也称"Earth mover’s distance",这个名字来源于第一篇里讲的沙雕比喻)
W P ( [ 2 , 3 , 4 ] , [ 5 , 6 , 7 ] , [ 1 2 , 1 4 , 1 4 ] , [ 1 2 , 1 4 , 1 4 ] ) = 3 W_{P}([2,3,4],[5,6,7],[\frac{1}{2},\frac{1}{4},\frac{1}{4}],[\frac{1}{2},\frac{1}{4},\frac{1}{4}])=3 W