【文本聚类】一篇文章弄懂三种聚类算法（K-Means，Agglomerative，DBSCAN）

最新推荐文章于 2025-03-13 22:48:57 发布

samarua

最新推荐文章于 2025-03-13 22:48:57 发布

阅读量3k

点赞数 3

分类专栏： # NLP 自然语言处理文章标签：聚类算法 NLP 机器学习

本文链接：https://blog.csdn.net/m0_46202073/article/details/109321547

版权

12 篇文章

订阅专栏

12 篇文章

订阅专栏

本文介绍了常用的聚类方法，包括K-Means、Agglomerative和DBSCAN等算法的核心思想及流程，并探讨了不同聚类算法的优缺点及其适用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

▶ 常用的聚类方法

	核心思想	常见算法
划分聚类	将给定的数据集，采用分裂法划分为K个类	K-Means, CLARANS
层级聚类	根据数据点之间的相似度创建一颗有层次的树	Agglomerative(聚合), Divisive(分裂)
密度聚类	当一片区域内的数据点的密度大于某个阀值，则认为它们是一类	DBSCAN, OPTICS

▶ 常用的距离函数（理解）


欧式距离	即自然距离
余弦距离	余弦相似度，是通过计算两个向量的夹角余弦值来评估他们的相似度
编辑距离	即码距，两个字符串至少需要多少次的处理才能将一个字符串变成另一个字符串
海明距离	两个等长字符串对应位置的不同字符的个数
皮尔逊距离	度量两个变量之间的差异性
杰卡德距离	度量两个集合之间的差异性

▶ 常用的距离函数（速查）

▶ 算法流程

▶ 评价

▶ 改进

每次找的质心，不一定是数据点——这对于有些任务来说是不符合要求的。基于K-Means算法改进出的 K-medoids算法 可以保证每一步计算的质心都是数据点
但是K-medoids算法的时间复杂度仍旧非常高。为了适应大规模数据集，后续又提出了 CLARANS算法

▶ 算法流程

在这里插入图片描述

▶ 评价

▶ 补充

▶ 名称解释：Density-Based Spatial Clustering of Applications with Noise，基于密度的聚类算法

▶ 算法流程

▶ 评价


兰德指数（Rand Index, RI）	$[0, 1]$
调节的兰德指数（Adjusted Rand Index, ARI）	$[- 1, 1]$
轮廓系数（Silhouette Coefficient, SC）	$[- 1, 1]$