1.聚类概念
聚类
是将物理或抽象对象的集合分成相似的对象类的过程。使得同一个簇中的对象之间具有较高的相似性,而不同簇中的对象具有较高的相异性。
簇
是数据对象的集合,这些对象与同一簇中的对象彼此相似,而与其他簇的对象相异。
聚类可形式描述为:
D={ o1, o2, ……, on}表示一个对象集合,
oi表示第i个对象,i={1,2,……,n};
Cx表示第x个簇,CxÍD,x=1,2,…,k;
Similarity(oi,oj)表示对象oi与对象oj之间的相似度。
2.K均值算法
误差平方和准则:若Nx是第x个簇Cx中的对象数目,mx是这些对象的均值,即: