人智导(十六):聚类效果评价
总述
- 聚类质量的评价是一个困难的问题
- 没有正确结果的反馈(无监督过程)
- 常用的方法:
- 使用者的观察
- 了解数据的分布
- 对于文档的聚类,可以通过阅读同一簇中的文档内容判断分组是否正确
- 分类的方法
- 使用者的观察
基于数据外在信息的评价方法
- 使用已标记类的数据(如同分类问题)验证算法质量
- 假设:每一个类是一个簇(cluster)
- 算法得到聚类结果后,测算其质量,通过熵(entropy),纯度(purity),查准率(precision),查全率(recall),F值等等
- 已知数据集D有k个类 C = ( c 1 , c 2 , … , c k ) C=(c_1, c_2, \dots ,c_k) C=(c1,c2,…,ck),聚类算法生成了k个簇,即划分D为k个不交叠的子集 D 1 , D 2 , … , D k D_1,D_2,\dots ,D_k D1,D2,…,Dk
聚类质量度量:熵(Entropy)
熵:对于每个簇(cluster),度量其熵值为
e n t r o p y ( D i ) = − Σ j − 1 k P r i ( c j ) l o g 2 P r i ( c j ) entropy(D_i)=-\Sigma^k_{j-1}Pr_i(c_j)log_2Pr_i(c_j) entropy(Di