聚类算法理论

本文介绍了聚类算法的基本原理和用途,包括分类、简化数据和细分市场等。重点讲解了k-均值聚类和层次聚类的算法过程、特点及应用案例,强调了聚类中需要注意的变量选择、共线性问题、标准化等关键问题。同时提到了常见的聚类方式,如基于密度的DBSCAN和基于网格的STNG等。
摘要由CSDN通过智能技术生成

目录

原理与用途

常见的聚类方式

聚类中需要注意的问题:

常见算法以及应用

k -均值聚类

k-均值聚类过程

该算法的特点

算法参数介绍

 聚类分析的应用案例

层次聚类

层次聚类的过程

算法特点

参数介绍

层次聚类的应用小案例

特征聚类


原理与用途

聚类是一种无监督学习算法,聚类的过程是一个见李假设的过程,使用聚类之后还需要总结每一类别的基本热证,从而更加清晰了解问题的实质

目的分类,一个类别的个体具有尽可能高的同质性,类别之间具有尽可能高的异质性。

原理假设研究对象均用自变量所构成的高维空间中的“点”来表示,一般规则中距离较小的同一类,距离较大的为另外一个类。

以上的是个体的分类方法,使用距离分类。也可以使用变量分类,对于变量的分类一般使用相似系数(如相关系数)作为距离的测量指标。

用途:

1、设计抽样方案:分层抽样  (比如调研城市经济发展,先聚类划分成几个类别);

2、预分析过程:先通过聚类分析达到简化数据的目的,将众多的个体先聚集成比较好处理的几个类别或者子集,然后再进行后续的多远分析;

3、细分市场、个体消费行为划分。

常见的聚类方式

1、划分聚类:K-Means (中小规模,球形类别、计算速度较快)kmeans :k个族,且每个族中心采用族中所含值的均值计算而成;

2、层次聚类BIRCH:聚类结果丰富、不同层次结果间有嵌套关系 计算量相对较大;

3、基于密度DBSCAN:一个区域中点的密度大过某个阈值,就归于同一类别中,擅长各种特殊形状的类 计算量大;

4、基于网格STNG:将数据空间划分成有限单元,然后基于单元格进行聚类,处理速度快(效果比较差);

5、基于模型:SOM、高斯混合模型。

聚类中需要注意的问题

 1、变量选择:只引入不同类别间有显著性差别的变量(无关变量会削弱有效信息,导致严重的错分);

2、共线性问题:相当于某个变量在聚类中的权重大于其他变量,最好进行预处理;

3、变量的标准化:梳理统计算法上要求一律标准化,但标准化后会削弱有用变量的作用,当变量量纲/变异程度相差非常大时候需要进行;

4、距离测量方法:在没有明确准专业知识支持下,首先使用默认值;

5、异常值:影响较大,没有更好解决办法,如果不能避免异常值的影响,则在数据准备过程中加以处理;

6、最佳类别数:2~8数量比较合适。

常见算法以及应用

k -均值聚类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是鱼儿啊~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值