Python机器学习——聚类的有效性指标(1)

本文介绍了聚类有效性指标(CVI)的概念,包括外部指标和内部指标。重点讲解了Jaccard系数、FM指数、Rand指数以及ARI指数,这些指标用于评估聚类算法的效果。此外,还分享了作者的个人经历和学习资源。
摘要由CSDN通过智能技术生成

聚类有效性指标(Cluster Validity Index,CVI)用于度量聚类的效果。很显然,希望彼此相似的样本在一个簇,彼此不相似的样本尽量在不同的簇。也就是说:同一簇的样本彼此之间相似,不同簇之间的样本尽可能不同。

聚类的性能指标分为两类:

  • 外部指标:该指标由聚类结果和某个参考模型进行比较而获得;

  • 内部指标:该指标由本身的聚类结果而得到,不利用任何参考模型;

外部指标

给定数据集D=x⃗ 1,x⃗ 2,…,x⃗ ND=x→1,x→2,…,x→N。假设某个参考模型给出的簇划分为C∗C∗={C∗1C1∗,C∗2C2∗,…,C∗k′′Ck"∗},其簇标记向量为λ⃗ ∗λ→∗。若聚类算法给出的簇划分为C=C={C1,C2,…,CKC1,C2,…,CK},其簇标记向量为λ⃗ λ→。定义:

a=|SS|,SS=[(x⃗ i,x⃗ j)|λi=λj,λ∗i=λ∗j,i<j]a=|SS|,SS=[(x→i,x→j)|λi=λj,λi∗=λj∗,i<j]

b=|SD|,SD=[(x⃗ i,x⃗ j)|λi=λj,λ∗i≠λ∗j,i<j]b=|SD|,SD=[(x→i,x→j)|λi=λj,λi∗≠λj∗,i<j]

c=|DS|,DS=[(x⃗ i,x⃗ j)|λi≠λj,λ∗i=λ∗j,i<j]c=|DS|,DS=[(x→i,x→j)|λi≠λj,λi∗=λj∗,i<j]

d=|DD|&#

  • 18
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值