denclue 聚类_【读书笔记-数据挖掘概念与技术】聚类分析:基本概念和方法

本文详细介绍了聚类分析的基本概念和方法,包括划分方法(如K-means)、层次方法(凝聚和分裂)、基于密度的方法(DBSCAN、OPTICS、DENCLUE)以及基于网格的方法。K-means算法简单但易受离群点影响,层次聚类具有层次关系,而基于密度的方法适合发现任意形状的簇。此外,还讨论了聚类评估的指标和确定簇数的方法。
摘要由CSDN通过智能技术生成

主要的聚类方法可以划分为以下几类:

划分方法

层次方法

基于密度的方法

基于网格的方法

聚类是典型的无监督学习。

wiki: 数据聚类算法可以分为结构性或者分散性。结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定所有分类。结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整体分类,然后逐渐分小。 分割式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从下至上聚类算法。 基于密度的聚类算法,是为了挖掘有任意形状特性的类别而发明的。此算法把一个类别视为数据集中大于某阈值的一个区域。DBSCAN和OPTICS是两个典型的算法。 许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。除非事先准备好一个合适的值,否则必须决定一个大概值,关于这个问题已经有一些现成的技术。

划分方法:把对象组织成多个互斥的组或簇

K-means——K-均值

优点:简单

缺点:受离群点影响较大,因为它基于形心

首先 3 个中心点被随机初始化,所有的数据点都还没有进行聚类,默认全部都标记为红色,如下图所示:

然后进入第一次迭代:按照初始的中心点位置为每个数据点着上颜色,这是代码中第 41 到 43 行所做的工作,然后 45 到 47 行重新计算 3 个中心点,结果如下图所示:

可以看到,由于初始的中心点是随机选的,这样得出来的结果并不是很好,接下来是下一次迭代的结果:

可以看到大致形状已经出来了。再经过两次迭代之后,基本上就收敛了,最终结果如下:

不过正如前面所说的那样 k-means 也并不是万能的,虽然许多时候都能收敛到一个比较好的结果,但是也有运气不好的时候会收敛到一个让人不满意的局

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值