数据挖掘聚类算法

最新推荐文章于 2024-05-15 09:47:32 发布

好蓝好蓝啊

最新推荐文章于 2024-05-15 09:47:32 发布

阅读量1.6k

点赞数 2

本文链接：https://blog.csdn.net/bgfuufb/article/details/83956971

版权

分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！

参考论文：数据挖掘中的聚类算法研究焦守荣　

一般把学习算法分成有监督和无监督学习两种方式。主要区别是有没有类信息作为指导。聚类分析是典型的无监督学习算法，一般用于自动分类。

聚类分析是按照某个特定标准(通常是某种距离)把一个数据集分割成不同的类（Class），使得类内相似性尽可能的大，同时使得不同的类之间区别性也尽可能的大。直观的说，最终形成的每个聚类，在空间上都是一个稠密的区域。

聚类方法主要分为划分聚类、层次聚类、基于密度的聚类、基于网格的聚类和基于模型的聚类。

聚类方法具有广泛的应用。典型的如文档的聚类以及一些特定领域的成功应用。但是由于聚类是无导师的学习方法，其所研究的数据没有类别标签，我们很难判断得到的聚类划分是否反映了事物的本质。

聚类分析也能用于分类Web文档来获得信息。作为数据挖掘的功能，聚类分析可以作为一个获得数据分布情况、观察每个类的特征和对特定类进一步分析的独立工具。通过聚类，能够识别密集和稀疏的区域，发现全局的分布模式，以及数据属性之间的相互关系等。

一个能产生高质量聚类的算法必须满足下面两个条件:

(1) 类内(intra-class)数据或对象的相似性最强；

(2) 类间(inter-class)数据或对象的相似性最弱。

聚类质量的高低通常取决于聚类算法所使用的相似性测量的方法和实现方式，同时也取决于该算法能否发现部分或全部隐藏的模式。

聚类分析中的数据结构

许多基于内存的聚类算法选择两种有代表性的数据结构：数据矩阵和相异度矩阵。

数据矩阵是一个对象-属性结构。它是由n个对象组成，如：人；这些对象是利用p个属性来进行描述的，如：年龄、高度、重量等。数据矩阵采用关系表形式或n×p矩阵来表示。

相异度矩阵是一个对象-对象结构。它存放所有n个对象彼此之间所形成的差异。它一般采用n×n矩阵来表示。

然而数据挖掘的对象复杂多样，要求聚类分析的方法不仅能够对属性为数值类型的数据进行，而且要适应数据类型的变化。一般而言，在数据挖掘中，对象属性经常出现的数据类型有：区间标度变量，二元变量，标称型、序数型和比例标度型变量以及混合类型的变量^。

目前存在着大量的聚类算法，算法的选择取决于数据的类型、聚类的目的和应用。从总体上来看，聚类算法可以分为串行算法和并行算法两类^[28]。

一、串行聚类算法

1.1 划分方法（partitioning method）

划分方法首先根据给定要构建划分的数目k创建一个初始划分，然后采用一种迭代的重定位技术，尝试通过对象在划分间移动来改进划分。一个好的划分的一般准则是：在同一类中的对象之间尽可能“接近”或相关，而不同类中的对象之间尽可能“远离”或不同。为了达到全局最优，基于划分的聚类会要求穷举所有可能的划分。实际上，绝大多数应用采用了以下两个比较流行的启发式方法：（a）K-平均（K-MEANS）算法，在该算法中，每个簇用该簇中对象的平均值来表示。（b）K-中心点（K-MEDOIDS）算法，在该算法中，每个簇用接近聚类中心的一个对象来表示。

K-means算法

K-means算法首先随机选择k个对象，每个对象代表一个聚类的质心。对于其余的每一个对象，根据该对象与各聚类质心之间的距离ÿ