四种聚类方法之比较

最新推荐文章于 2024-05-15 09:47:32 发布

beck_zhou

最新推荐文章于 2024-05-15 09:47:32 发布

阅读量4.4w

点赞数 10

分类专栏：算法研究(数据挖掘、机器学习、自然语言、深度学习、搜索引擎) 转型——创业/经济/金融/投资/理财文章标签：算法 transactions matlab 数据挖掘数据库网络

本文链接：https://blog.csdn.net/zhoubl668/article/details/7881313

版权

本文对比分析了k-means、层次聚类、SOM和FCM四种聚类算法。实验表明，针对IRIS数据集，FCM和k-means算法在准确性上表现优秀，而层次聚类准确度最低，SOM耗时最长。聚类算法的选择取决于数据类型和目的，每种方法都有其优缺点。

摘要由CSDN通过智能技术生成

摘要: 介绍了较为常见的k-means、层次聚类、SOM、FCM等四种聚类算法，阐述了各自的原理和使用步骤，利用国际通用测试数据集IRIS对这些算法进行了验证和比较。结果显示对该测试类型数据，FCM和k-means都具有较高的准确度，层次聚类准确度最差，而SOM则耗时最长。
关键词: 聚类算法；k-means；层次聚类；SOM；FCM

聚类分析是一种重要的人类行为，早在孩提时代，一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用，如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等[1]。
　聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起，不同数据尽量分离。
　聚类技术[2]正在蓬勃发展，对此有贡献的研究领域包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等。各种聚类方法也被不断提出和改进，而不同的方法适合于不同类型的数据，因此对各种聚类方法、聚类效果的比较成为值得研究的课题。
1 聚类算法的分类
　目前，有大量的聚类算法[3]。而对于具体应用，聚类算法的选择取决于数据的类型、聚类的目的。如果聚类分析被用作描述或探查的工具，可以对同样的数据尝试多种算法，以发现数据可能揭示的结果。
　主要的聚类算法可以划分为如下几类：划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法[4-6]。
　每一类中都存在着得到广泛应用的算法，例如：划分方法中的k-means[7]聚类算法、层次方法中的凝聚型层次聚类算法[8]、基于模型方法中的神经网络[9]