Efficient Parameter-free Clustering Using First Neighbor Relations

使用第一邻居关系的高效无参数聚类
摘要
我们以单个聚类方程的形式提出了一种新的聚类方法,该聚类方法能够直接发现数据中的分组。与大多数现有的聚类算法相比,此方法不需要任何超参数,距离阈值和/或指定聚类数量的需要。所提出的算法属于分层聚合方法。该技术具有非常低的计算开销,易于扩展并适用于大的实际问题。
一 介绍
目前聚类方法存在的难点
1.)不可以自动确定具有高精度/纯度的真实(或接近真实)聚类;
2.)需要超参数或数据的先验知识;
3.)推广不同的数据域;
4.)扩展到非常大(数百万个样本)的数据,需要过高的计算资源。
众所周知的基于中心的方法(例如,Kmeans)基于它们到集群中心的距离迭代地将点分配给所选数量的集群;凝聚聚类方法基于预定义的距离阈值来合并点。近期的方法从点的成对距离构建相似性图(例如,谱聚类技术)并通过使用这些距离作为边缘权重并且将样本点用作节点来解决图划分问题。所有现有的聚类技术都使用某种形式的先验知识/假设来定义相似性目标以获得数据中的特定分组。该先验知识以预先设置簇数或设置距离阈值或其他超参数的形式出现,这些超参数呈现用户定义的相似性概念以获得分组。这些选择是主观的,在基础数据分布发生变化时发生变化。这意味着这些参数不稳定,需要针对每个数据集进行调整。这使得聚类问题非常困难,因为没有标准解决方案可用于不同的问题。
在本文中,我们描述了一种有效且完全无参数的无监督聚类算法,该算法不会遇到任何上述问题。 “完全”的意思是该算法不需要任何用户定义的参数,例如相似性阈值,或预定义数量的簇,并且它不需要任何关于数据分布本身的先验知识。我们提出的方法的主要前提是发现基于对每个数据点的第一个邻居的简单观察来链接大量样本的有趣行为。
二 相关工作
代表性的聚类算法分为三个方面,质心/分割算法(例如,K均值,亲和传播),分级凝聚/分裂方法和将聚类视为图分区问题(​​例如,谱聚类方法)的方法来进行分类。对于基于中心的聚类,已知的是,K均值对初始ķ质心的选择是敏感的。亲和传播算法通过将每个样本视为示例来解决该问题,然后使用有效的消息解析机制,直到出现一组好的样本及其相应的集群。通常通过选择目标函数然后开发近似优化该目标的算法来接近这种基于分区的方法。谱聚类(SC)和它的变体最近开始流行[43]。最谱聚类算法需要计算全部相似度图形拉普拉斯矩阵和具有二次的复杂性,因此限制

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值