从网上找到了很多定义,这里选取比较典型的几个;
K-Mean
分群法是一种分割式分群方法,其主要目标是要在大量高纬的资料点中找出
具有代表性的资料点;这些资料点可以称为群中心,代表点;然后再根据这些
群中心,进行后续的处理,这些处理可以包含
1
)资料压缩:以少数的资料点来代表大量的资料,达到资料压缩的功能;
2
)资料分类:以少数代表点来代表特点类别的资料,可以降低资料量及计算量;
分割式分群法的目的是希望盡量減小每個群聚中,每一點與群中心的距離平方差(square error)。
假設我們現在有一組包含c個群聚的資料,其中第k個群聚可以用集合Gk來表示,假設Gk包含nk筆
資料{x1, x2, …, xnk),此群聚中心為yk,則該群聚的平方差ek可以定義為:
ek =
S
i
|xi-yk|2
,其中xi是屬於第k群的資料點。
而這c個群聚的總和平方差E便是每個群聚的平方差總和:
E =
S
k=1~c
ek
我們分群的方法,就變成是一個最佳化的問題,換句話說,我們要如何選取c個群聚以及相關的群中心,
使得E的值為最小。
2
.处理流程
(
1
)
从
c