1.聚类算法
聚类算法是将大量数据以相似度为基础形成若干类,使类内之间的数据最为相似,类间的数据相似度差别尽可能的大,属于无监督学习。
2.K-means算法
2.1算法原理
K-means聚类算法以k为参数,把n个对象分为k个簇,以使簇内的具有较高的相似度,且簇间相似度低。
2.2 评价准则
E的计算为:,该式在一定程度上刻画了簇内样本相似度。
2.3 算法流程及描述
输入:簇的数目k和包含n个对象的数据库
过程:
任选k个对象作为初始均值向量;
Repeat
for j=1 to n DO
根据簇中对象的平均值,将每个对象赋给最类似的簇
for i=1 to k DO