人智导(十六):聚类效果评价

本文介绍了聚类效果的评价方法,重点讨论了无监督学习中聚类质量的评估指标,如熵和纯度。熵用于度量簇内数据的多样性,纯度则衡量簇中某一类别的数据比例。通过示例展示了如何计算这两个度量,并提到基于数据内在信息的评价方法,如凝聚度和分离度,以及在实际应用中如何间接评价聚类效果。
摘要由CSDN通过智能技术生成

人智导(十六):聚类效果评价

总述

  • 聚类质量的评价是一个困难的问题
  • 没有正确结果的反馈(无监督过程)
  • 常用的方法:
    • 使用者的观察
      • 了解数据的分布
      • 对于文档的聚类,可以通过阅读同一簇中的文档内容判断分组是否正确
    • 分类的方法

基于数据外在信息的评价方法

  • 使用已标记类的数据(如同分类问题)验证算法质量
  • 假设:每一个类是一个簇(cluster)
  • 算法得到聚类结果后,测算其质量,通过熵(entropy),纯度(purity),查准率(precision),查全率(recall),F值等等
    • 已知数据集D有k个类 C = ( c 1 , c 2 , … , c k ) C=(c_1, c_2, \dots ,c_k) C=(c1,c2,,ck),聚类算法生成了k个簇,即划分D为k个不交叠的子集 D 1 , D 2 , … , D k D_1,D_2,\dots ,D_k D1,D2,,Dk

聚类质量度量:熵(Entropy)

熵:对于每个簇(cluster),度量其熵值为
e n t r o p y ( D i ) = − Σ j − 1 k P r i ( c j ) l o g 2 P r i ( c j ) entropy(D_i)=-\Sigma^k_{j-1}Pr_i(c_j)log_2Pr_i(c_j) entropy(Di

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值