聚类算法理论

最新推荐文章于 2024-06-13 09:58:25 发布

是鱼儿啊～

最新推荐文章于 2024-06-13 09:58:25 发布

阅读量1.2k

点赞数

分类专栏：机器学习文章标签：机器学习聚类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_39027078/article/details/127233925

版权

本文介绍了聚类算法的基本原理和用途，包括分类、简化数据和细分市场等。重点讲解了k-均值聚类和层次聚类的算法过程、特点及应用案例，强调了聚类中需要注意的变量选择、共线性问题、标准化等关键问题。同时提到了常见的聚类方式，如基于密度的DBSCAN和基于网格的STNG等。

摘要由CSDN通过智能技术生成

目录

原理与用途

常见的聚类方式

聚类中需要注意的问题：

常见算法以及应用

k -均值聚类

k-均值聚类过程

该算法的特点

算法参数介绍

聚类分析的应用案例

层次聚类的过程

层次聚类的应用小案例

原理与用途

聚类是一种无监督学习算法，聚类的过程是一个见李假设的过程，使用聚类之后还需要总结每一类别的基本热证，从而更加清晰了解问题的实质。

目的：分类，一个类别的个体具有尽可能高的同质性，类别之间具有尽可能高的异质性。

原理：假设研究对象均用自变量所构成的高维空间中的“点”来表示，一般规则中距离较小的同一类，距离较大的为另外一个类。

以上的是个体的分类方法，使用距离分类。也可以使用变量分类，对于变量的分类一般使用相似系数（如相关系数）作为距离的测量指标。

用途：

1、设计抽样方案：分层抽样（比如调研城市经济发展，先聚类划分成几个类别）；

2、预分析过程：先通过聚类分析达到简化数据的目的，将众多的个体先聚集成比较好处理的几个类别或者子集，然后再进行后续的多远分析；

3、细分市场、个体消费行为划分。

常见的聚类方式

1、划分聚类：K-Means （中小规模，球形类别、计算速度较快）kmeans ：k个族，且每个族中心采用族中所含值的均值计算而成；

2、层次聚类BIRCH：聚类结果丰富、不同层次结果间有嵌套关系计算量相对较大；

3、基于密度DBSCAN：一个区域中点的密度大过某个阈值，就归于同一类别中，擅长各种特殊形状的类计算量大；

4、基于网格STNG：将数据空间划分成有限单元，然后基于单元格进行聚类，处理速度快（效果比较差）；

5、基于模型：SOM、高斯混合模型。

聚类中需要注意的问题：

1、变量选择：只引入不同类别间有显著性差别的变量（无关变量会削弱有效信息，导致严重的错分）；

2、共线性问题：相当于某个变量在聚类中的权重大于其他变量，最好进行预处理；

3、变量的标准化：梳理统计算法上要求一律标准化，但标准化后会削弱有用变量的作用，~~当变量量纲/变异程度相差非常大~~时候需要进行；

4、距离测量方法：在没有明确准专业知识支持下，首先使用默认值；

5、异常值：影响较大，没有更好解决办法，如果不能避免异常值的影响，则在数据准备过程中加以处理；

6、最佳类别数：2~8数量比较合适。

常见算法以及应用

k -均值聚类

最低0.47元/天解锁文章

是鱼儿啊～

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

是鱼儿啊～ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。