数据挖掘学习笔记--聚类分析(一)

本文介绍了数据挖掘中的聚类分析,包括基于划分的k-means和二分K均值,基于层次的凝聚和分裂聚类,以及基于密度的DBSCAN算法。详细探讨了各类方法的优缺点和工作原理,提供了深入学习的资源。
摘要由CSDN通过智能技术生成

聚类(clustering)是将物理或抽象对象的集合分成相似的对象类或簇的过程,是无监督学习【unsupervised learning】。


--基于划分

     k-means 基本K均值方法

          方法:

              1.选择K个点作为初始质心

              2.repeat

              3.       将每个点指派到最近的质心,形成K个簇

              4.       重新计算每个簇的质心

              5.until 质心不再发生变化

          优点:

               聚类快

          缺点:

                a.常终止于局部最优

                b.只适用于数值属性聚类

                c.对噪声和异常值敏感

                d.选择不同的初始值,可能产生不同的聚类结果

                f.不适合发现非凸面的簇

   二分K均值

         方法:

            1.初始化簇表,使之包含由所有的点组成的簇

            2.repeat

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值