利用互信息比较不同的聚类结果

互信息(mutual information)和信息熵(information entropy)一样都是信息论里面的概念。信息熵在决策树里面用的比较多,可以度量样本集合的纯度。而互信息在聚类中有很大的作用,它可以衡量对同一个数据集不同的划分的之间的相似程度。

假设 PaPb 表示数据集 X 上的两个不同的划分,X包括n的样本。

Pa 包含 ka 个簇, Pa = { Ca1,Ca2,,Caka }。

Pb 包含 kb 个簇, Pb = { Cb1,Cb2,,Cbkb }。

nabij 表示 Cai Cbj 中相同样本的个数。

nai 表示 Cai 中样本的个数, nbj 表示 Cbj 中样本的个数。

PaPb 的互信息为 I(PaPb) :

I(PaPb)=i=1kaj=1kbnabijnlog(nabijnnainnbjn)

接下来还要对 I(PaPb) 进行标准化,使 I(PaPb) 的值域为 [0,1]
标准化的互信息用 NMI 表示:

NMI(Pa,Pb)=I(Pa,Pb)H(Pa)H(Pb)

其中 H(Pa),H(Pb) 分别表示 Pa,Pb 的信息熵
NMI(Pa,Pb) 的值介于0到1之间,当划分 Pa,Pb 只有很小的差别时, NMI(Pa,Pb) 趋近于1,反之趋近于0。

如果我们通过先验信息,知道了真正的划分 P ,那么就可以用 NMI(PaP) 来检验划分 Pa 是否合理。

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值