告别欧氏距离：聚类中的距离学习方法

最新推荐文章于 2024-04-12 22:52:38 发布

斯台半居

最新推荐文章于 2024-04-12 22:52:38 发布

阅读量2.8w

点赞数 6

分类专栏：聚类算法边信息文章标签：数据聚类边信息距离度量学习

本文链接：https://blog.csdn.net/qingdanry/article/details/45048937

版权

聚类算法同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

边信息

1 篇文章 0 订阅

订阅专栏

通常聚类算法的结果总是依赖于预先给定的距离度量，而如果预先设定的聚类度量无法抓住数据中的对于使用者来说有用的特征，唯一的挽救方法就是手动地改变距离度量，直到能够得到好的聚类结果了。

如果能有一个系统的方法来帮助使用者告别人工尝试，又能得到合适的距离度量，就是一件很棒的事情了。

因为最近关注谱聚类算法，读到了国内今年初发表的一篇文章，其中就使用了2002年由NJW谱聚类算法的三个设计者其中两个（Andew Y.Ng, Michael I. Jordan）和Eric P. Xing（第一作者）、Stuart Russell提出的一种利用数据的边信息（Side Information）来学习距离度量的方法来提高聚类的准确性。

于是把原始文献翻出来读了一遍，觉得确实有值得思考的地方，就把主要的方法及其思路、实验效果等内容总结一下，写在这里，希望能给读者也带来一些启发吧。

一、聚类中的困扰

聚类嘛，有时候确实是一个让人头疼的问题，因为它可能本就没有正确答案：如果用三个聚类算法来对一些文档组成的集合进行聚类，第一个算法根据作者进行聚类、第二个算法根据主题进行聚类，第三个算法则根据写作风格进行聚类，那么谁能说哪种是正确答案呢？

还可能有更糟糕的情况呢，如果一个算法已经把数据根据主题进行了聚类，而我们现在又想把聚类的方式改为根据写作风格聚类，怎么办呢？——几乎没有什么技术能够帮助我们得到这样神奇的算法，于是仍然只能通过手工改变距离度量（distance metric）来解决。

而这篇文章，就在某种程度上提出了一种解决方案，能够让使用者不必再费心于距离度量的选择，开开心心地玩耍~(≧▽≦)/~啦啦啦~。
文章中，讨论如下的问题：假设用户已经指出在输入空间中（即 $R^n$ ）哪些点被认为是相似的，能否自动地习得 $R^n$ 上的距离度量，使得在该度量下，保持数据点之间的相似关系？（而这些已知的点之间的相似关系，就是待会儿要利用的边信息了。）

好吧，回到刚才的文档分类问题，问题就变成了这样：通过给出哪些被判断为类型相似的文档对，来学习出决定文档类型的关键特征。

其实有一类无监督算法也（潜在地）学习度量，它们利用输入数据集，并找到它到某个空间的一个嵌入。比如说多维尺度分析（MDS, Multidimensional Scaling）和局部线性嵌入（LLE, Local Linear Embedding）。但接下来要谈的方法与它们还是有一定区别的，因为我们不再只关注训练集中的数据（为之找到嵌入），而是从整个输入空间中去学习一个完整的度量。￥因此能够更容易地推广到之前没有学习过的数据上来。

在有监督学习中，为了更好地解决分类问题（如最近邻分类），也有很多寻求局部或全局度量的尝试。这些方法虽然能在分类中学习到不错的度量，我们却并不知道它们能否适用于其它算法（如K-means），尤其是当可用信息不如它们期望的传统、均匀的训练集那么结构化时。￥

在聚类中，Wagstaff等人提出了一种根据相似信息聚类的方法：如果已经被告知哪些确定的点对是相似或不相似的，这一算法能得到把相似对放到相同聚类、非相似对放到不同聚类的中的聚类结果。但它存在与刚才提到的MDS、LLE类似的缺陷，即无法把结果推广到未经学习的数据上来（如果这些数据与训练集的相似/不相似性是未知的）。￥

二、距离度量的学习
假设我们有一个点的集合 $\left \{ x_i \right \}_{i=1,...,m}\subseteq R^n$ ，并且已经知道哪些点之间是相似的：

那么如何学习距离度量呢？文章给出的思路是这样的，学习如下形式的距离度量（即马氏距离，Mahalanobis distance）：
这里写图片描述

为了确保上式给出的是距离度量（为方便表述，下皆称距离），还要注意到距离应满足的性质（非负性、三角不等式），而这要求矩阵 $A$ 是半正定的，即 $A\succeq 0$ 。

注1：当 $A=I$ 时，上述距离就退化为欧式距离；当 $A\neq I$ 是对角阵时，上述距离意味着距离对不同的方向赋以不同的权重。事实上，矩阵 $A$ 的习得就对应着将一族马氏距离参数化的过程。

注2：习得上述距离也等价于将输入数据中的每个点 $x$ 重新尺度化（rescale）为 $A^{1/2}x$ ，再对其相互之间计算欧式距离。这样的视角将在后面对于习得距离的可视化上非常有用。

下面我们来为距离的习得设定目标函数了。
一个直接的想法就是，对于已知相似的数据点，要求它们的距离平方和尽量地小，即

当

A=0 $A=0$ 时，问题是平凡的，并且没有实际应用价值，因此我们增加一条限制条件这里写图片描述

，以保证矩阵

A $A$ 不会把输入数据集聚拢到一个独立点上。当数据信息清晰时，这里的

D $D$ 可以是不相似点对（pair of points）的集合；否则的话，可以是不在

S $S$ 中的所有点对的集合。

到这里，我们需要求解的优化问题就浮现了：

注3：上述第二式右端常数 $1$ 的选择可以是任意的，这并不重要，因为选择不同的正常数 $c$ 仅仅意味着习得的矩阵 $A$ 变为 $c^2A$ 。

注4：这一优化问题对于参数 $A$ 来说是线性的，并且两个限制条件都很容易验证是凸的。因此这是一个凸优化问题，这使得我们可以得到高效且避免陷入局部最优解的算法来解决它。

注5：有的人可能会觉得对于限制条件这里写图片描述，可能有其他更好的选择，因为它除了给出一个简单的线性限制以外，看不出还有什么好处。事实上，它将总是得到秩为 $1$ 的矩阵 $A$ （即把所有数据点投射到一条线上）。

接下来分两种情况讨论矩阵 $A$ 的学习：（注：等价于距离的学习）

1.学习对角矩阵 $A$
这时，希望得到。使用 $Newton-Raphson$ 法，能得到求解的一个高效算法。
定义

可以知道，最小化函数值 $g(A)$ （满足 $A\succeq 0$ ）等价于求解刚才我们提到的凸优化问题（至多所得与 $A$ 相差一个正常数倍）。因此可以使用 $Newton-Raphson$ 法来快速地最小化目标函数 $g$ 。

2.学习一般的矩阵 $A$ （full A）
在这种情况下， $A\succeq 0$ 的条件略难满足， $Newton$ 的方法也不再高效（当参数个数为 $n^2$ 时，得到全局最小解的复杂度为 $0(n^6)$ ）。这时，使用 梯度上升法和 迭代投射的思想，我们得到一种与刚才不同的算法。
伪代码如下：

注6：上面的 $\left \| \cdot \right \|_F$ 是矩阵的 $Frobenius$ 范数（）

我们提出与之等价的优化问题：

为使第一式函数的值增大，我们对 $g(A)$ 实施梯度上升；接着通过迭代投射的方法来保证满足后两式的限制条件。具体地，梯度上升步骤即，然后依次地将 $A$ 投射到集合和中来，这样就得到上面伪代码描述的算法了。

对于这一优化问题，选择上述的形式的限制条件的原因在于，将矩阵 $A$ 投射到集合 $C_1$ 和 $C_2$ 上并不需要消耗很多时间。具体地，第一个投射步骤（到 $C_1$ ）将归结为在一个单独线性限制的条件下最小化一个二次目标函数的问题，这一问题的结果很容易通过求解线性方程组成的稀疏系统来给出（时间复杂度 $0(n^2)$ ）；而第二个投射步骤（到 $C_2$ ），可以先找到一个对角矩阵的合同阵，其中是矩阵A的特征值组成的对角阵， $X\in R^{n*n}$ 是 $A$ 对应的特征向量。接着再取，其中

至此，学习距离的方法阐述完毕，可以看一看试验结果了。

三、实验和例子

在这一部分，先展示一下在人工数据集上，距离学习的效果；再看看使用这一方法对于聚类算法有多大的效果增强。

3.1距离学习的例子

考虑上图(a)中的数据，它们被分为两类（按照不同的颜色和符号展示）。假设每一类中的点之间是相似的，就能根据这一假设来给出点对集合 $S$ 。在习得对角阵 $A$ 或一般(full)的阵 $A$ 两种不同的情况下，分别求得结果为：

利用刚才我们提到的对数据重新尺度化数据的方法，可以把这一结果可视化，见上图(b)、(c)。

再来看下图，展示了另一组人工数据的结果：

在这一数据中，有3个聚类，它们的中心的坐标在 $x$ 轴和 $y$ 轴上不同，在第三轴上相同。如图b所示，习得的对角矩阵正确的忽视了 $z$ 轴的影响。有趣的是，在习得full A时，算法把数据集令人惊讶地投射到了一条仍能维持聚类划分的直线上。

3.2在聚类中的应用
要把我们提出的距离学习方法应用的聚类上，当然是很简单的一件事情啦~~~在最坏的情况下，我们只要找出一些描述相似点的信息，利用它们构造出包含相似点对的集合 $S$ （情况更好一点，也许我们还可以构造出不相似点对的集合 $D$ ），再视情况学习得到参数化马氏距离的矩阵 $A$ ，这样得到希望习得的距离，然后在聚类中放弃沿用的老一套的距离，直接使用这一距离就可以了。

$注7$ ：有时我们还加一个条件，即属于集合 $S$ 中的点对在聚类的结果中仍应该属于同一聚类。

对于K-means算法，现在我们来考虑4个可能的聚类应用：
1.(K-means)使用欧氏距离的标准K-means算法，不考虑集合 $S$ 提供的信息。
2.(Constrained K-means) 使用欧氏距离的标准K-means算法，考虑集合 $S$ 提供的信息，要求属于集合 $S$ 中的点对在聚类的结果中仍应该属于同一聚类。
3.(K-means + metrix) K-means算法，使用通过 $S$ 习得的距离进行聚类
4.(Constrained K-means + metric) K-means算法，使用通过 $S$ 习得的距离进行聚类，要求属于集合 $S$ 中的点对在聚类的结果中仍应该属于同一聚类。

现在我们要比较这几种不同算法在实际应用中的效果了。

令 $\widehat{c}_i(i=1,...,m)$ 是通过聚类算法，数据点 $x_i$ 被分到的聚类，而 $c_i$ 是数据点 $x_i$ 应属于的聚类。可以用下式来描述聚类的准确度：

其中 $1\left \{ \cdot \right \}$ 表示指示函数 $1\left \{ True \right \}=1,1\left \{ False \right \}=0$ 。这一准确度式子等价于从数据集中随机地抽取出两个点 $x_i$ ， $x_j$ ，聚类算法给出的结果 $\widehat{c}$ 与真实情况 $c$ 符合的概率（无论 $x_i$ ， $x_j$ 是否属于同一个聚类）。

下图展示了一个简单的例子。在这一例子中 $x$ 轴的坐标其实就指示了聚类的归属，但是原始数据集看起来更像是按照 $y$ 轴坐标聚类的。

来看一看对这一数据集使用不同的聚类算法，分别得到怎样的结果：

可以看到，使用原始距离的K-means算法得到的聚类效果并不好，但通过距离学习，实现了精确聚类。

优惠劵

斯台半居

关注关注

6
点赞

踩

47

收藏

觉得还不错? 一键收藏

4
评论

告别欧氏距离：聚类中的距离学习方法

Eric P. Xing, Andew Y.Ng, Michael I. Jordan和Stuart Russell提出的一种利用数据的边信息（Side Information）来学习距离度量的方法，用来提高聚类的准确性。把主要的方法及其思路、实验效果等内容总结一下，写在这里，希望能给读者也带来一些启发吧。
复制链接

扫一扫

专栏目录

聚类算法中的距离度量有哪些

weixin_30468137的博客

07-27 4072

一、你知道聚类中度量距离的方法有哪些吗？　1）欧式距离　欧氏距离是最易于理解的一种距离计算方法，源自欧氏空间中两点间的距离公式。即两点之间直线距离，公式比较简单就不写了　应用场景：适用于求解两点之间直线的距离，适用于各个向量标准统一的情况　2）曼哈顿距离(Manhattan Distance) 　从名字就可以猜出这种距离的计算方法了。想象你在曼哈顿要从一个十字路口开车到另外...

欧式距离实现的聚类算法

07-29

聚类算法，使用欧氏距离实现，可通过文件对算法功能进行测试

4 条评论您还未登录，请先登录后发表或查看评论

行业教育软件-学习软件-欧氏距离计算器 1.0.zip

08-03

行业教育软件-学习软件-欧氏距离计算器 1.0.zip

基于欧氏距离的三维点云聚类

05-24

此代码将点云按照欧氏距离进行聚类，在欧氏聚类中只要相邻点之间距离小于距离阈值则聚为一类。具体的原理讲解可参考博客：https://blog.csdn.net/qq_32867925/article/details/124955814?spm=1001.2014.3001.5502

欧氏距离实现从点云数据中单木分割（API）

07-20

调用PCL中欧氏距离聚类方法实现单木分割，具体的原理以及采用该策略进行点云聚类效果可参考博客： https://blog.csdn.net/qq_32867925/article/details/125895413?spm=1001.2014.3001.5501

欧氏距离：计算两个向量之间的欧氏距离。-matlab开发

05-30

'z=mydist(w,p)' 计算两个向量 w:SxR 和 p:RxQ 之间的欧氏距离，并返回 z:SxQ，w 的行和 p 的列之间的距离。此函数与 Matlab 'dist(w,p)' 的作用相同，但计算所需的内存要少得多。它可以帮助克服神经网络中较大数据集训练中的“内存不足错误”。

欧式距离聚类分析

06-11

根据欧式距离将随即生成的点进行自动分类有界面

ML（十）

ǫɪ ԃα√‘的博客

10-28 599

聚类问题 1. 概述聚类分析（cluster analysis ）是一种常用的无监督学习算法，它试图将一组不带标签的样本（或变量）根据彼此至今的相似度划分成若干个类，使得相似的样本归到一个小的分类单元中，不相似的样本归到一个大的分类单元中，知道所有的样本都分类完毕，由于这些样本并不带标签，因此，对于各个类的含义需要使用者结合业务知识进行解读和定义。聚类分析既能作为一个单独的过程，用来寻找一组不带标签的数据的内在结构和规律，也可以作为其他分类算法的前期工作，例如：我们可以先用聚类算法对一批产品的

欧氏距离聚类算法（仅供学习使用）

z377989129的博客

03-27 6766

欧氏距离聚类算法（Euclidean Distance Clustering Algorithm）是一种基于欧氏距离的聚类算法，其思想是将样本空间中距离比较近的样本点归为一类，距离较远的样本点归为不同的类。该算法是一种层次聚类算法，因为其生成的聚类结果可以表示为一棵树状结构（称为聚类树或者谱树），树上的每个节点代表一个聚类，每个节点的子节点表示该节点的子聚类。

【学习笔记】《模式识别》2：聚类分析

weixin_43894455的博客

11-03 1565

模式识别-聚类分析

20 | 基于距离的学习：聚类与度量学习

qq_37756660的博客

10-27 107

当所有样本的聚类归属都确定后，再计算每个簇中所有样本的算术平均数，将结果作为更新的聚类中心，并将所有样本按照 k 个新的中心重新聚类。这个式子里的 πk 是混合系数（mixing coefficient），表示的是每个单独的高斯分布在总体中的权重，后面的 N(x∣μk,Σk) 则是在被选中的高斯分布中，数据 x 取值的概率。截至目前，我所介绍的模型都属于监督学习范畴，它们处理具有标签的输入数据，给出意义明确的输出，回归模型输出的是连续的回归值，分类模型输出的是离散的类别标签，这些模型都属于。

计算Python Numpy向量之间的欧氏距离实例

12-17

计算Python Numpy向量之间的欧氏距离，已知vec1和vec2是两个Numpy向量，欧氏距离计算如下： import numpy dist = numpy.sqrt(numpy.sum(numpy.square(vec1 – vec2))) 或者直接： dist = numpy.linalg.norm(vec1 – vec2) 补充知识：Python中计算两个数据点之间的欧式距离，一个点到数据集中其他点的距离之和如下所示：计算数两个数据点之间的欧式距离 import numpy as np def ed(m, n): return np.sqrt(np.sum((m -

banqiu.zip_relief权重_改进聚类_改进距离_欧氏距离分类

09-21

基于欧几里得距离的聚类分析，Relief计算分类权重，包括邓氏关联度、绝对关联度、斜率关联度、改进绝对关联度。

吴恩达机器学习：均值聚类法（K-means Clustering）

qyk666的博客

04-12 1229

在本练习中，您将实现K-means算法并将其用于图像压缩。

2024-2030全球及中国PCB接触式探头行业研究及十五五规划分析报告.docx

04-18

2024-2030全球及中国PCB接触式探头行业研究及十五五规划分析报告

网站界面设计mortal0418代码

04-18

网站界面设计mortal0418代码

PHP毕业设计-校园失物招领系统源码+数据库.zip

04-18

PHP毕业设计-校园失物招领系统源码+数据库.zip个人经导师指导并认可通过的高分毕业设计项目，主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者。也可作为课程设计、期末大作业。包含全部项目源码、该项目可以直接作为毕设使用。项目都经过严格调试，确保可以运行！ PHP毕业设计-校园失物招领系统源码+数据库.zip个人经导师指导并认可通过的高分毕业设计项目，主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者。也可作为课程设计、期末大作业。包含全部项目源码、该项目可以直接作为毕设使用。项目都经过严格调试，确保可以运行！ PHP毕业设计-校园失物招领系统源码+数据库.zip个人经导师指导并认可通过的高分毕业设计项目，主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者。也可作为课程设计、期末大作业。包含全部项目源码、该项目可以直接作为毕设使用。项目都经过严格调试，确保可以运行！ PHP毕业设计-校园失物招领系统源码+数据库.zip个人经导师指导并认可通过的高分毕业设计项目，主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者。也可

2024年神经酸行业分析报告.pptx

最新发布

04-18

2024年神经酸行业分析报告.pptx

Java爬虫信息抓取的实现完整实例（源码）

04-18

【Java爬虫】信息抓取的实现完整实例（源码）

欧氏距离arcgis聚类

09-10

欧氏距离在ArcGIS聚类中是一种常用的距离度量方法。聚类分析是一种常用的空间数据分析方法，它通过将相似的要素分组，形成具有相似特征的空间模式，从而揭示数据的内在规律。 欧氏距离是一种简单直观的距离度量方法，它衡量了两个要素之间的绝对距离。在ArcGIS中，可以通过计算两个要素之间的欧氏距离来确定它们之间的相似性。计算欧氏距离的公式如下： d = sqrt((x2 - x1)^2 + (y2 - y1)^2) 其中，x1和y1分别代表第一个要素的坐标，x2和y2分别代表第二个要素的坐标。计算得到的距离值越小，说明两个要素的特征越相似。在进行聚类分析时，可以利用欧氏距离来度量要素之间的相似性，将相似的要素聚集在一起形成簇。通过聚类分析，可以找出数据中的潜在模式和规律，帮助用户提取有用的空间信息。总而言之，欧氏距离在ArcGIS聚类分析中起着重要作用，可以帮助用户确定要素之间的相似性程度，以便进行有效的数据聚类和模式发现。

“相关推荐”对你有帮助么？

非常没帮助

没帮助

一般

有帮助

非常有帮助

提交