数据挖掘之聚类

本文探讨了数据挖掘中的聚类问题,包括选择聚类算法时遇到的挑战,如数据形状、次序和噪声的影响。解释了高维空间中的“维数灾难”,并介绍了层次聚类、k-means算法及其复杂度。同时,文章讨论了非欧式空间下簇间距离度量,以及CURE和GRGPF等特殊场景的聚类算法。最后,阐述了应对流数据聚类的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

聚类属于无监督学习。

聚类的算法有很多种,其可分为基于划分、层次、密度、网格及模型的聚类方法。

根据数据集的不同,需要采用不同的聚类算法和策略。


1. 选择聚类算法,所面临的常见问题又哪些?

1) 不同形状的数据集。不同形状的数据集,也需要采取不同的度量策略,或者不同的聚类算法。

2)不同的数据次序。相同数据集,但数据输入次序不同,也会造成聚类的结果的不同。

3)噪声。不同的算法,对噪声的敏感程度不同。


2. 在高维的欧式空间,什么是“维数灾难”?

在高维下,所有点对的距离都差不多(如欧式距离),或者是几乎任意两个向量都是正交(利用夹角进行进行度量),这样聚类就很困难。


3. 常见的聚类算法的策略有哪些?

1)层次或凝聚式聚类。采取合并的方式,将邻近点或簇合并成一个大簇。

2)点分配。每次遍历数据集,将数据分配到一个暂时适合的簇中,然后不断更新。


4. 层次聚类算法的复杂度是多少?

每次合并,都需计算出两个点对之间的距离,复杂度是O(n^2), 后续步骤的开销,分布正比与O((n-1)^2), O((n-2)^2)...,这样求和算下来,算法复杂度是O(n^3).

算法优化:采用优先队列/最小堆来优化计算。优先队列的构建,第一步需要计算出每两个点的距离,这个开销是O(N^2). 一般情况下,

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值