denclue 聚类_【读书笔记-数据挖掘概念与技术】聚类分析：基本概念和方法

最新推荐文章于 2024-07-22 02:45:00 发布

桔梗橘花枝

最新推荐文章于 2024-07-22 02:45:00 发布

阅读量371

点赞数

文章标签： denclue 聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28684757/article/details/112029230

版权

本文详细介绍了聚类分析的基本概念和方法，包括划分方法（如K-means）、层次方法（凝聚和分裂）、基于密度的方法（DBSCAN、OPTICS、DENCLUE）以及基于网格的方法。K-means算法简单但易受离群点影响，层次聚类具有层次关系，而基于密度的方法适合发现任意形状的簇。此外，还讨论了聚类评估的指标和确定簇数的方法。

摘要由CSDN通过智能技术生成

主要的聚类方法可以划分为以下几类：

划分方法

层次方法

基于密度的方法

基于网格的方法

聚类是典型的无监督学习。

wiki：数据聚类算法可以分为结构性或者分散性。结构性算法利用以前成功使用过的聚类器进行分类，而分散型算法则是一次确定所有分类。结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始，不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整体分类，然后逐渐分小。分割式聚类算法，是一次性确定要产生的类别，这种算法也已应用于从下至上聚类算法。基于密度的聚类算法，是为了挖掘有任意形状特性的类别而发明的。此算法把一个类别视为数据集中大于某阈值的一个区域。DBSCAN和OPTICS是两个典型的算法。许多聚类算法在执行之前，需要指定从输入数据集中产生的分类个数。除非事先准备好一个合适的值，否则必须决定一个大概值，关于这个问题已经有一些现成的技术。

划分方法：把对象组织成多个互斥的组或簇

K-means——K-均值

优点：简单

缺点：受离群点影响较大，因为它基于形心

首先 3 个中心点被随机初始化，所有的数据点都还没有进行聚类，默认全部都标记为红色，如下图所示：

然后进入第一次迭代：按照初始的中心点位置为每个数据点着上颜色，这是代码中第 41 到 43 行所做的工作，然后 45 到 47 行重新计算 3 个中心点，结果如下图所示：

可以看到，由于初始的中心点是随机选的，这样得出来的结果并不是很好，接下来是下一次迭代的结果：

可以看到大致形状已经出来了。再经过两次迭代之后，基本上就收敛了，最终结果如下：

不过正如前面所说的那样 k-means 也并不是万能的，虽然许多时候都能收敛到一个比较好的结果，但是也有运气不好的时候会收敛到一个让人不满意的局

最低0.47元/天解锁文章

桔梗橘花枝

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
denclue 聚类_【读书笔记-数据挖掘概念与技术】聚类分析：基本概念和方法

主要的聚类方法可以划分为以下几类：划分方法层次方法基于密度的方法基于网格的方法聚类是典型的无监督学习。wiki：数据聚类算法可以分为结构性或者分散性。结构性算法利用以前成功使用过的聚类器进行分类，而分散型算法则是一次确定所有分类。结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始，不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整体分类，然后逐...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。