K均值聚类关于初始聚类中心的探讨

摘要:进入二十一世纪以来,科学技术的不断发展,使得数据挖掘技术得到了学者越来越多的关注。数据挖掘是指从数据库中发现隐含在大量数据中的新颖的、潜在的有用信息和规则的过程,是一种处理数据库数据的知识发现。数据挖掘一种新兴的交叉的学科技术,涉及了模式识别、数据库、统计学、机器学习和人工智能等多个领撤分类、聚类、关联规则是数据挖掘技术几个主要的研究领域。在数据挖掘的几个主要研究领域中,聚类是其中一个重要研究领域,对它进行深入研究不仅有着重要的理论意义,而且有着重要的应用价值。聚类分析是基于物以类聚的思想,将数据划分成不同的类,同一个类中的数据对象彼此相似,而不同类中的数据对象的相似度较低,彼此相异。目前,聚类分析已经广泛地应用于数据分析、图像处理以及市场研究等。传统的K均值聚类算法(K-Means)是一种典型的基于划分的聚类算法,该聚类算法的最大的优点就是操作简单,并且K均值聚类算法的可伸缩性较好,可以适用于大规模的数据集。但是K均值聚类算法最主要的缺陷就是:它存在着初始聚类个数必须事先设定以及初始质心的选择也具有随机性等缺陷,造成聚类结果往往会陷入局部最优解。论文在对现有聚类算法进行详细的分析和总结基础上,针对K均值聚类算法随机选取初始聚类中也的不足之处,探讨了一种改进的选取初始聚类中心算法。对初始聚类中心进行选取,然后根据初始聚类中也不断迭代聚类。改进的聚类算法根据一定的原则选择初始聚类中心,避免了K均值聚类算法随机选取聚类中心的缺点,从而避免了聚类陷入局部最小解,实验表明,改进的聚类算法能够提高聚类的稳定性与准确率。


关键词:聚类,聚类中心,k均值,相似度,距离


1 问题描述
聚类分析作为一种无监督机器学习方法,在信息检索和数据挖掘等领域都有很广泛的应用,例如金融分析、医学、生物分类、考古等众多领域。聚类的最终目的就是使同一类的数据对象之间相似度最大,彼此相似,而不同类的数据对象之间相似度最小,彼此相异。聚类算法是聚类分析的主要研究内容,自从20世纪80年代数据挖掘技术提出以来,许多学者都对聚类研究做出了贡献,主要体现在聚类算法的改进上,迄今为止,研究人员提出以下五种聚类算法,大体上可分为基于划分的聚类算法、基于网格的聚类算法、基于密度的聚类算法、基于层次的聚类算法和基于模型的聚类算法。基于划分的聚类算法是目前应用最广泛、最成熟的聚类算法,其中,K均值聚类算法一个比较简洁和快速,一种典型的基于划分的聚类算法,其思想简单、收敛速度快,已得到广泛的应用和研究,但是K均值算法存在着以下缺陷:初始聚类个数K必须事先设定,而实际中K值一般较难确定。而且对初始聚类中心十分敏感,由于随机选取初始聚类中心,不同的初始中心点会造成聚类结果的波动,易陷入局部最小解,同时K均值聚类算法具有易受噪声数据影响、难以发现非球状簇、无法适用于巨大数据集等缺陷。所以本文旨在探讨初始聚类中心的选择给定方式。

2 研究现状
聚类分析是一个活跃的领域,已有大量经典的聚类算法涌现,主要有基于划分的聚类算法、基于网格的聚类算法、基于密度的聚类算法、基于层次的聚类算法、基于模型的聚类算法、以及对传统的五种聚类算法的改进。聚类的研究现在还是富有一定的挑战性的,目前,己有众多学者提出了各种改进的聚类算法,针对不同的数据集,不同的聚类算法往往会取得不同的聚类效果,学者一般会根据数据集的不同来选择不同的聚类算法进行聚类,也就是说,目前并没有一种统一的聚类算法可在不同的数据集上取得较好的聚类结果。虽然现有的聚类算法比较多,但它们都会有这样那样的不足,数据集的不同也会影响不同聚类算法的聚类结果。研究和改善聚类算法、提高聚类结果的准确率一直以来是国内外专家、研究人员的重点工作之一。
本文讨论的K 均值聚类算法是一种常用的、典型的基于划分的聚类算法,具有简单易实现等特点。目前关于K均值聚类算法的改进有很多,K均值聚类国内外研究成果主要包括:文献[1]将决策树算法引入到 K 均值聚类算法的改进中,增强了算法的抗噪性,但算法的计算比较复杂;文献[2]将遗传算法引入到 K 均值聚类算法中,改善了算法的聚类效果;

  • 24
    点赞
  • 103
    收藏
    觉得还不错? 一键收藏
  • 24
    评论
评论 24
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值