[Point Cloud] 点云分析中的EMD（Earth Mover's Distance）距离

最新推荐文章于 2024-03-24 14:35:59 发布

风中摇曳的小萝卜

最新推荐文章于 2024-03-24 14:35:59 发布

阅读量6.3k

点赞数 11

分类专栏： Point Cloud Analysis

本文链接：https://blog.csdn.net/Gregory24/article/details/104495727

版权

Point Cloud Analysis 专栏收录该内容

3 篇文章 5 订阅

订阅专栏

点云分析中的EMD（Earth Mover’s Distance）距离

EMD（Earth Mover’s Distance）距离介绍

EMD距离，又叫做推土机距离，也叫作Wasserstein距离。个人理解，EMD距离是离散化的Wasserstein距离，而Wasserstein距离是描述两个连续随机变量的EMD距离。二者数学思想是相同的，但是所描述的对象和应用场景稍有区分。由于个人正在做关于点云数据的一些研究，因此这篇文章记录的仅仅是EMD距离相关的数学描述，不讨论Wasserstein距离。

EMD距离的出处是2000年发表在IJCV上的“The Earth Mover’s Distance as a Metric for Image Retrieval”一文。最初是作为一种度量用来判断两张图像之间的相似度，也就是用来做图像检索工作的。这里，我们从文章中对于EMD的定义出发，最后引出在许多点云分析文章中使用的EMD做出了哪些假设和简化。

Signature
Signature的数学定义为： ${\bm{s_j} = (\bm{m_j}, w_j)}$ ，代表着一个features组的聚类， $\bm{m_j}$ 代表这个聚类类别的平均值mean或者模式mode， $w_j$ 代表着图像中属于这个类别的像素的占比（在图像处理中），也就是对应类别的权重weight。Histogram也是统计类别以及占比的统计学工具，但是相比之下，Histogram的类别分割是等比的，而Signature是相对灵活的。比如，统计数组{1,2,3,4,2,1,3,4,5,1,1,2,3,4}的Histogram，则会得到1有多少个数字，2有多少个数字…，如果用Signature在统计，则可以划分成属于{1,2,3}这个集合的数字有多少，属于{4,5}这个集合的数字有多少。Signature比Histogram更加灵活，这也提出Signature这个数学概念的意义。

Earth Mover’s Distance
假设有两组Signatures， $P={(p_1, w_{p1}), ..., (p_m, w_{pm})}$ 和 $Q={(q_1, w_{q1}), ..., ({q_n, w_{qn})}}$ 。 $P$ 中有 $m$ 个类别， $Q$ 中有 $n$ 个类别。我们可以将两个集合中的 $p$ 看作砂矿， $q$ 则是砂石仓库， $w_{pi}$ 为每一个砂矿包含的砂石数量， $w_{qj}$ 是每一个仓库能容纳砂石数量。再引入距离矩阵 $\bm{D}$ （ $m \times n$ 维），其中 $d_{ij}$ 代表从 $p_i$ 到 $q_j$ 之间的距离，一般为欧氏距离。再定义工作流Flow，记为矩阵 $\bm{F}$ （ $m \times n$ 维），其中 $f_{ij}$ 代表从 $p_i$ 到 $q_j$ 之间搬运砂石的数量，所以随后的总工作量为：
$WORK=(P,Q,\bm{F})=\sum_{i=1}^{m}\sum_{j=1}^{n}d_{ij}f_{ij}$
另外，对于 $f_{ij}$ 是有条件限制的：

$f_{ij}\geq0$ ，其中 $1\leq i\leq m, 1\leq j\leq n$ ，这条约束说明砂石只能从 $p$ 运向 $q$ ，不能反向。
$\sum_{j=1}^{n}f_{ij} \leq w_{pi}$ ，其中 $1\leq i\leq m$ ，这条约束说明从 $p_i$ 砂矿运出的砂石不能超过该矿蕴含的砂矿总量。
$\sum_{i=1}^{m}f_{ij} \leq w_{qj}$ ，其中 $1\leq j\leq n$ ，这条约束说明运入 $q_j$ 仓库的砂石数量不能超过该仓库的最大容纳量。
$\sum_{i=1}^{m}\sum_{j=1}^{n}f_{ij} = \min(\sum_{i=1}^{m}w_{pi}, \sum_{j=1}^{n}w_{qj})$ ，这条约束说明，整个工作完成时，搬运的总砂石数量要么是所有砂矿的储量总和，要么是所有仓库的容纳量总和。

最终的EMD距离定义就是归一化之后的工作量：
$EMD(P,Q)=\frac {\sum_{i=1}^{m}\sum_{j=1}^{n}d_{ij}f_{ij}} {\sum_{i=1}^{m}\sum_{j=1}^{n}f_{ij}}$

点云分析中的EMD距离

假设 $P$ 和 $Q$ 为两个点集，假设：两个点集所包含的点的数量相等，数量记为N。
这个假设决定了EMD距离中的 $w_{pi}$ 和 $w_{qj}$ 始终保持一致，为 $\frac 1 N$ 。换句话说，这个假设保证了两个点集中的所有点的地位是平等的，这也符合点云分析中的前提，即点云特征与点的顺序置换无关。由于所有的权重均为 $\frac 1 N$ ，所以：
$\sum_{i=1}^{N}\sum_{j=1}^{N}f_{ij} = \min(\sum_{i=1}^{N}w_{pi}, \sum_{j=1}^{N}w_{qj})=\min(N·\frac 1N,N·\frac 1N)=1$
$\sum_{i=1}^{N}\sum_{j=1}^{N}d_{ij}f_{ij} =N·\frac 1 N\sum_{i=1}^{N}\sum_{j=1}^{N}d_{ij}=\sum_{i=1}^{N}\sum_{j=1}^{N}d_{ij}$
因此，EMD距离改写为：
$EMD(P,Q)={\sum_{i=1}^{N}\sum_{j=1}^{N}d_{ij}}$
也就是说，其实在神经网络中选择EMD作为损失函数时，就是寻找在点集 $P$ 和 $Q$ 中寻找一个一一对应的关系使得EMD最小，即：
$\min EMD(P,Q)=\min \sum_{i=1}^{N}\sum_{j=1}^{N}d_{ij}$
其实，也就是一般在论文中看到的那样：
$Loss_{EMD}(P,Q)=\min_{\phi:P\to Q}\sum_{x\in P} \mid\mid x-\phi(x)\mid\mid_2$
就是在点集 $P$ 和 $Q$ 中间找到一个双射 $\phi$ ，将两个点集一一对应起来，使得二者计算欧式距离的和最小。这就是一般我们在点云补全等论文中看到的EMD作为损失函数形式的由来了。

风中摇曳的小萝卜

关注

11
点赞
踩
42

收藏

觉得还不错? 一键收藏
6
评论
[Point Cloud] 点云分析中的EMD（Earth Mover's Distance）距离

点云分析中的EMD（Earth Mover’s Distance）距离EMD（Earth Mover’s Distance）距离介绍EMD距离，又叫做推土机距离，也叫作Wasserstein。个人理解，EMD距离是离散化的Wasserstein距离，而Wasserstein距离是描述两个连续随机变量的EMD距离。二者数学思想是相同的，但是所描述的对象和应用场景稍有区分。由于个人正在做关于点云数...
复制链接

扫一扫