最优传输系列-第二篇

这篇博客探讨了在机器学习中,最优传输如何定义距离,特别是Wasserstein距离。通过对比Wasserstein距离(W1,又称"Earth mover’s distance")与L2距离,阐述了Wasserstein距离在处理不同支集的概率分布时的优势,指出其为一个弱距离且满足度量条件。此外,还提到了当概率分布整体平移时,Wasserstein距离的简便计算特性。
摘要由CSDN通过智能技术生成

最优传输系列是基于Computational Optimal Transport开源书的读书笔记

2.4 用最优传输定义距离

在各种机器学习算法中,距离的定义都是至关重要的,经常对算法的性能有极大的影响,也是设计算法时最需要考虑的几点之一。举个简单的例子,同一个聚类算法用不同的距离计算,会得到完全不同的结果。在很多情况下,我们最熟悉的L2距离就已经很好了,不过用高级数学找到更好的距离计算方式,有时就能更上一层楼。

在这一节里,我们来认识最优传输在距离方面的贡献-Wasserstein distance
Wasserstein metric
书中eq 2.17一句简短的公式,就把Wasserstein 距离定义完了,可能一开始比较难理解。不过没有关系,我们分析一下这个定义,以及它和 L 2 L^2 L2之间本质的区别,这个概念也就很清楚了。

eq 2.17本身意义很简单,定义p-Wasserstein W P W_{P} WP等于以 D P D^P DP为cost matrix的,从概率分布ab的Kantorovich传输代价的 1 P \frac{1}{P} P1次方

那么我们举个 P = 1 P=1 P=1的实际例子:
(注: W 1 W_{1} W1也称"Earth mover’s distance",这个名字来源于第一篇里讲的沙雕比喻)
W P ( [ 2 , 3 , 4 ] , [ 5 , 6 , 7 ] , [ 1 2 , 1 4 , 1 4 ] , [ 1 2 , 1 4 , 1 4 ] ) = 3 W_{P}([2,3,4],[5,6,7],[\frac{1}{2},\frac{1}{4},\frac{1}{4}],[\frac{1}{2},\frac{1}{4},\frac{1}{4}])=3 W

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值