聚类技术:发展历史、主要分类与重要论文解析

亲爱的小伙伴们😘,在求知的漫漫旅途中,若你对深度学习的奥秘、JAVA 、PYTHON与SAP 的奇妙世界,亦或是读研论文的撰写攻略有所探寻🧐,那不妨给我一个小小的关注吧🥰。我会精心筹备,在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享🎁。每一个点赞👍,都如同春日里的一缕阳光,给予我满满的动力与温暖,让我们在学习成长的道路上相伴而行,共同进步✨。期待你的关注与点赞哟🤗!

在数据挖掘和机器学习的广袤领域中,聚类作为一种强大的无监督学习技术,一直扮演着至关重要的角色。它能够帮助我们从海量的数据中发现隐藏的模式和结构,将相似的数据对象归为一类,从而为进一步的分析和决策提供有价值的信息。

聚类的发展历史

  • 早期起源与初步应用:聚类分析的历史可以追溯到 20 世纪 30 年代,起源于分类学。1932 年,德里弗(Driver)和克罗格(Krober)在人类学中首次应用聚类分析。随后,约瑟夫・祖斌(Joseph Zubin)和罗伯特・泰伦(Robert Tryon)分别于 1938 年和 1939 年将其引入心理学。1943 年,卡特尔(Cattell)将其用于人格心理学中的特质理论分类,这些早期的探索为聚类分析的发展奠定了基础。
  • 理论推动与算法奠基:1963 年,皮特・思科乐(Peter Sokal)和罗伯特・史内斯(Robert Sneath)创作的《数值分类学原理》专著,极大地推动了世界范围内对聚类方法的研究,为聚类分析提供了重要的理论支撑和方法指导。1967 年,k-means 算法被提出,该算法规定必须实现为每个类别确定一个聚类中心,因其简单高效,成为基于划分的聚类算法中的经典代表,为后续众多聚类算法的改进和拓展提供了基础。
  • 算法多样化与深化:1969 年,Ruspini 首次将模糊集理论应用于聚类分析中,提出了模糊聚类算法(FCM),1981 年由 Bezdek 首次实现,FCM 算法在图像分割等领域得到了较为广泛的应用。1996 年,为了解决聚类算法无法满足在大型空间数据库中的组合要求的问题,马丁・易斯特(Martin Ester)等人提出了有噪声应用的基于密度的空间聚类 DBSCAN 算法。同年,利用分层方法的平衡迭代规约和聚类 BIRCH 被罗根・罗马克瑞南(Raghu Ramakrishnan)等人提出。
  • 与现代技术的融合与拓展:进入 21 世纪,随着信息技术的飞速发展,聚类技术与深度学习等现代技术不断融合,如深度聚类方法利用深度神经网络提取有利于聚类的特征,自监督聚类通过数据增广或动量网络等策略构建自监督信号,进一步推动了聚类技术在图像识别、自然语言处理等众多领域的广泛应用,并不断拓展其应用边界和提升性能。

聚类的主要分类

  • 基于划分的方法:给定数据集和要生成的簇的数目,划分方法首先根据选定的中心点给出一个初始划分,然后反复迭代,把数据点从一个簇移动到另一个簇,使得同一簇中的数据点越来越相似,而不同簇中的数据点越来越不相似,直到满足一定条件时停止迭代。常见的算法有 k-means、k-means++、k-medoids、CLARANS 等。k-means 算法简单快速,但需要事先确定簇数和中心点,且对初始中心的选择敏感,容易产生局部最优解;k-medoids 算法则是为了降低 k-means 算法对异常点的敏感性而提出的。
  • 基于层次的方法:层次法对给定的数据对象集合进行层次似的分解,可分为凝聚和分裂两大类。凝聚的方法是自底向上的,一开始将每个对象作为单独的一个类,然后相继地合并相近的类,直到所有的类合并为一个或达到一个终止条件;分裂型层次聚类则是自顶向下的,首先将所有的样本都看作是一个聚类簇,然后在每一步中,上层聚类簇被分裂为下层更小的聚类簇,直到每个簇只包含一个样本或满足终止条件。代表算法有 BIRCH 算法和 DIANA 算法等。
  • 基于密度的方法:根据数据空间中的密度分布来形成簇,特别适合于发现任意形状的簇,并且能够很好地处理噪声和离群点,不需要预先指定簇的数量。常见算法有 DBSCAN、OPTICS、Mean Shift 等,但这类算法可能对数据的局部密度变化敏感,导致对簇的识别不稳定,且对参数敏感。
  • 基于网格的方法:将数据空间划分成有限数量的单元或 “网格”,然后在这些网格单元上应用聚类算法。这种方法特别适合于大规模数据集和高维数据,因为它可以显著减少计算量和存储需求,如 STING 算法、CLIQUE 算法等。
  • 基于模型的方法:假设数据是由多个概率分布生成的,每个分布对应一个簇,试图找到生成数据的最佳模型,通常涉及概率图模型或统计模型,常见的有高斯混合模型(Gaussian Mixture Models, GMM)、混合贝叶斯模型等。
  • 模糊聚类方法:允许数据点以不同的隶属度属于多个簇,与传统的硬聚类不同,它提供了一种更加灵活的方式来处理数据点的归属问题,反映了现实世界中事物的模糊性和不确定性。
  • 谱聚类方法:基于谱图理论和线性代数的数据划分方法,利用数据的谱(即特征值和特征向量)信息来发现数据集中的簇结构,通常用于发现复杂形状的簇,并且不需要预先指定簇的数量。
  • 基于图的聚类方法:以图论为基础,将数据点视为图中的节点,并通过分析节点之间的连接关系来发现数据中的簇结构,特别适用于那些具有复杂关系和层次结构的数据集,例如社交网络、生物信息学和文本数据。

聚类的经典论文与 2024 最新技术论文

  • 经典论文
    • 《数值分类学原理》:1963 年由皮特・思科乐和罗伯特・史内斯创作。此专著系统地阐述了数值分类学的原理和方法,为聚类分析提供了重要的理论基础和方法指导,推动了聚类方法在世界范围内的研究和发展。
    • 《A k-Means Clustering Algorithm》:1967 年由 James MacQueen 提出 k-means 算法。该算法简单高效,通过不断迭代更新聚类中心,将数据划分为 k 个簇,使簇内相似度最大化,因其简单易懂、计算复杂度低且在处理大规模数据集时具有较高的效率,得到了广泛的应用和深入的研究。
    • 《A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters》:1981 年由 James C. Bezdek 发表,首次实现了模糊聚类算法 FCM。该算法引入了模糊集理论,允许一个数据点属于多个簇,且每个簇有相应的隶属度,在处理具有模糊性和不确定性的数据时表现出独特的优势。
    • 《A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise》:1996 年由马丁・易斯特等人提出 DBSCAN 算法。该算法基于数据点的密度,如果一个区域内的数据点密度超过某个阈值,就将这些点划分为一个聚类簇,能够发现任意形状的簇,并且对噪声数据具有较好的鲁棒性。
  • 2024 最新技术论文
    • 《Image Clustering with External Guidance》:由李云帆等人撰写,提出了一种名为 TAC(Text-Aided Clustering,文本辅助的聚类)的外部引导聚类方法。该方法基于预训练 CLIP 模型,通过利用来自文本模态的外部知识辅助图像聚类,解决了仅依靠数据内蕴信息进行聚类的局限性。具体包括文本表征构建和跨模态互蒸馏两部分,实验结果表明,TAC 方法显著提升了图像聚类精度,为聚类技术引入外部知识提供了新的范式和思路。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

♢.*

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值