聚类质量的评价方法,本质上,都是根据簇内和簇间的效果对比进行衡量。
1 均一性,完整性
均一性:一个簇中只包含一个类别的样本,则满足均一性;其实也可以认为是正确率(每个聚簇中正确分类的样本数占该聚簇总样本数的比例和)
p = 1 k ∑ i = 1 k N ( C i = = K i ) N ( K i ) p=\frac{1}{k}\sum_{i=1}^{k}\frac{N(C_i==K_i)}{N(K_i)} p=k1i=1∑kN(Ki)N(Ci==Ki)
完整性:同类别样本被归类到相同簇中,则满足完整性;每个聚簇中正确分类的样本数占该类型的总样本数比例的和。
r = 1 k ∑ i = 1 k N ( C i = = K i ) N ( C i ) r=\frac{1}{k}\sum_{i=1}^{k}\frac{N(C_i==K_i)}{N(C_i)} r=k1i=1∑kN(Ci)N(Ci==Ki)
V-measure:均一性和完整性的加权平均
V β = ( 1 + β 2 ) . p . r β 2 . p + r V_\beta=\frac{(1+\beta ^2).p.r}{\beta ^2.p+r} Vβ