K-means clustering 介绍论文

论文:基于距离的划分聚簇算法[分享]
叶若芬  李春平
(清华大学软件学院  北京  100084)

摘  要:k-means算法在聚簇大的数据集时是公认比较有效的算法之一,然而它只能应用在具有数值属性描述的数据对象集合上,这种数据对象叫做数值数 据;却无法应用于真实世界中具有其他形形色色属性的数据对象集合上,比如颜色、纹理、形状等特征描述的数据对象集合,这种数据叫做分类数据。为了能对分类 数据进行聚簇,对k-means算法进行了扩展,出现两种新的算法:一种是k-modes算法,另一种是k-prototypes算法。但这两种算法都需 要用户事先确定聚簇数k、阈值t和聚簇中心Q,在不明白数据分布状况的情况下能较准确地确定这3个参数值是很不容易的,改进的k-modes算法有效解决 了这一问题。
关键词:聚簇,k-means,k-modes,k-prototypes,相异度
Distance-based Partition Clustering Algorithm
Ye Ruofen    Li Chunping
(School of Software, Tsinghua University,Beijing 100084,China)

Abstract: The k-means algorithm is well known for its efficiency in clustering large data sets. However, working only on numeric values prohibits it from being used to cluster real world data containing categorical values, such as those data whose attributes is color, texture and shape etc. To cluster categorical values,the k-modes algorithm and k-prototypes algorithm were presented. Yet it is necessary for users to predefine the number of clusters, the center of a cluster and the initial threshold for these algorithms. It is difficult to judge the number of clusters and the initial threshold while not understanding the distribution of the original data. The issue is addressed in this paper for an improved k-modes algorithm.
Key words: Cluster,k-means&#

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值