Efficient Parameter-free Clustering Using First Neighbor Relations

最新推荐文章于 2023-04-04 21:17:34 发布

mxg007

最新推荐文章于 2023-04-04 21:17:34 发布

阅读量1.9k

点赞数 2

分类专栏： Point cloud

本文链接：https://blog.csdn.net/qq_42183018/article/details/93618602

版权

本文提出了一种名为FINCH的新型无参数聚类算法，该算法利用数据点的第一邻居关系进行高效聚类，无需设定距离阈值、簇数量等超参数。FINCH属于分层聚合方法，能自动发现数据分组，适用于大规模数据集，且计算开销低。通过对经典数据集的实验，FINCH在聚类质量和时间效率上表现出优势。

摘要由CSDN通过智能技术生成

使用第一邻居关系的高效无参数聚类
摘要
我们以单个聚类方程的形式提出了一种新的聚类方法，该聚类方法能够直接发现数据中的分组。与大多数现有的聚类算法相比，此方法不需要任何超参数，距离阈值和/或指定聚类数量的需要。所提出的算法属于分层聚合方法。该技术具有非常低的计算开销，易于扩展并适用于大的实际问题。
一介绍
目前聚类方法存在的难点
1.）不可以自动确定具有高精度/纯度的真实（或接近真实）聚类;
2.）需要超参数或数据的先验知识;
3.）推广不同的数据域;
4.）扩展到非常大（数百万个样本）的数据，需要过高的计算资源。
众所周知的基于中心的方法（例如，Kmeans）基于它们到集群中心的距离迭代地将点分配给所选数量的集群；凝聚聚类方法基于预定义的距离阈值来合并点。近期的方法从点的成对距离构建相似性图（例如，谱聚类技术）并通过使用这些距离作为边缘权重并且将样本点用作节点来解决图划分问题。所有现有的聚类技术都使用某种形式的先验知识/假设来定义相似性目标以获得数据中的特定分组。该先验知识以预先设置簇数或设置距离阈值或其他超参数的形式出现，这些超参数呈现用户定义的相似性概念以获得分组。这些选择是主观的，在基础数据分布发生变化时发生变化。这意味着这些参数不稳定，需要针对每个数据集进行调整。这使得聚类问题非常困难，因为没有标准解决方案可用于不同的问题。
在本文中，我们描述了一种有效且完全无参数的无监督聚类算法，该算法不会遇到任何上述问题。 “完全”的意思是该算法不需要任何用户定义的参数，例如相似性阈值，或预定义数量的簇，并且它不需要任何关于数据分布本身的先验知识。我们提出的方法的主要前提是发现基于对每个数据点的第一个邻居的简单观察来链接大量样本的有趣行为。
二相关工作
代表性的聚类算法分为三个方面，质心/分割算法（例如，K均值，亲和传播），分级凝聚/分裂方法和将聚类视为图分区问题（例如，谱聚类方法）的方法来进行分类。对于基于中心的聚类，已知的是，K均值对初始ķ质心的选择是敏感的。亲和传播算法通过将每个样本视为示例来解决该问题，然后使用有效的消息解析机制，直到出现一组好的样本及其相应的集群。通常通过选择目标函数然后开发近似优化该目标的算法来接近这种基于分区的方法。谱聚类（SC）和它的变体最近开始流行[43]。最谱聚类算法需