文本聚类分析算法_常用的聚类分析算法

常用的聚类分析算法

下面将对常用的聚类分析算法做个简单介绍。

2cd58b53d9a8fc6699f8b613af9c2b59.png

图1 图常用聚类算法之间的层次关系

1 基于划分的算法

划分聚类在一步中就产生所有的簇,而不要几个步骤。虽然在算法内部可以产生几个不同的簇,但划分聚类的结果只产生一个簇集。由于仅有一个簇集作为输出,所以用户必须事先给出聚类的数目,还需要用度量函数或者准则函数来判定所给出的解的优劣程度。

划分方法的基本思想是,给定一个n个样本的数据集,划分方法将数据划分为k个划分(k<=n),每个划分表示一个簇,同时满足:

第一,每个簇至少包含一个样本。

第二,每个样本必须属于且仅属于一个簇。

给定要创建的划分的数目k,首先创建一个初始划分然后利用一个循环定位技术通过将对象从一个划分移动到另一个划分来改善划分质量。典型的划分方法包括:K均值、K-medoids、CLARA、CLARANS等。算法流程如图3。

算法:根据聚类中的均值进行聚类划分的K均值算法。

输入:聚类个数K,以及包含n个数据对象的数据库。

输出:满足方差最小标准的k个聚类。

处理流程:

(1)从n个数据对象任意选择k个对象作为初始聚类中心:

(2)循环(3)到(4)直到每个聚类不再发生变化为止:

(3)根据每个聚类对象的均值中心对象,计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分;

(4)重新计算每个有变化聚类的均值中心对象;

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值