机器学习｜数学建模｜数据挖掘｜Data Mining｜无监督分类算法｜聚类分析

alwaysuzybai

已于 2023-02-18 13:51:59 修改

阅读量598

点赞数

分类专栏： # 数据挖掘机器学习文章标签：数据挖掘聚类机器学习

于 2023-02-18 13:39:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_57656758/article/details/128254312

版权

本文介绍了聚类分析的基本概念、应用领域和常见方法，包括K-means算法。聚类是一种无监督分类技术，常用于市场研究、图像处理和空间数据分析等领域。文章详细讨论了聚类中的数据类型、距离度量法和不同类型的变量处理，以及聚类质量的评估。K-means算法是聚类中常用的一种方法，通过迭代寻找数据的最佳分组。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2022-12-20 14:43:58

什么是聚类分析？

聚类分析中的数据类型

主要聚类分析方法分类

划分方法(Partitioning Methods)

分层方法

基于密度的方法

基于表格的方法

基于模型的方法

异常分析

总结

目录

一、预备知识

二、聚类的常规应用

2.1 模式识别

2.2 空间数据分析

2.3 图像处理

2.4 经济学(尤其是市场研究方面)

2.6 应用聚类分析的例子

(1)市场销售

(2)土地使用

(4)城市规划

(5)地震研究

三、好的聚类方法？

四、两种数据结构

4.1数据矩阵(two modes)

4.2差异度矩阵(one mode)

4.3评价聚类质量

五、聚类分析中的数据类型

5.1区间标度变量(Interval- scaled variables)

5.1.1数据标准化

5.1.2距离度量法

5.2二元变量(Binary variables)

5.2.1二元变量的可能性表编辑

5.2.2二元变量相异度计算

对称的情况下：

非对称的情况下：

5.3标称变量(Nominal Variables)

5.4.1序数型变量分类

离散序数变量

连续序数变量

5.4.2序数型变量相异度计算

5.5比例型变量(Ratio Variables)

5.6混合型变量(Variables of mixed types)

六、K- means算法

一、预备知识

簇(cluster)：一个数据对象的几何图形。

在同一个类(或簇)中，对象之间具有相似性；不同类的对象之间是相异的。

聚类分析：把一个给定的数据对象集合分成不同的簇。

聚类是一种无监督分类法：没有预先制定的类别；

典型的应用

作为一个独立的分析工具，用于了解数据的分布；

作为其它算法的一个数据预处理步骤。

二、聚类的常规应用

2.1 模式识别

2.2 空间数据分析

在GIS中，通过聚类发现特征空间来建立主题索引；

在空间数据挖掘中，检测并解释空间中的簇。

2.3 图像处理

2.4 经济学(尤其是市场研究方面)

2.5 WWW

文档分类；

分析WEB日志数据来发现相似的访问模式。

2.6 应用聚类分析的例子

(1)市场销售

帮助市场人员发现客户中的不同群体，然后用这些知识来开展一个目标明确的市场计划。

(2)土地使用

在一个陆地观察数据库中标识哪些土地使用相似的地区。

(3)保险

对购买了汽车保险的客户，标识那些有较高平均赔偿成本的客户。

(4)城市规划

根据类型、价格、地理位置等来划分不同类型的住宅。

(5)地震研究

根据地质断层的特点把已观察到的地震中心分成不同的类。

三、好的聚类方法？

一个好的聚类方法要能产生高质量的聚类结果——簇，这些簇要具备以下两个特点：

(1)高的簇内相似性

(2)低的簇间相似性

聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现；

聚类方法的好坏还取决于该方法是否能发现某些还是所有的隐含模式。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。