马修斯相关系数MCC和标准互信息NMI

1 机器学习知识补充
机器学习分为三个阶段:
第一阶段:学习模型。采用学习算法,通过对训练集进行归纳学习得到分类模型。
第二阶段:测试模型。将已经学习得到的分类模型用于测试集,对测试集中未知类别的实例进行分类。
第三阶段:性能评估。只有通过优秀的评价标准才能选择出性能更好的分类器。

2.马修斯相关系数(性能评估的指标)
. 马修斯相关系数是应用在机器学习中,用以测量二分类的分类性能的指标。该指标考虑了真阳性、真阴性和假阳性和假阴性,通常认为该指标是一个比较均衡的指标,即使是在两类别的样本含量差别很大时,也可以应用它。MCC本质上是一个描述实际分类与预测分类之间的相关系数,它的取值范围为,取值为1时表示对受试对象的完美预测,取值为0时表示预测的结果还不如随机预测的结果,-1是指预测分类和实际分类完全不一致。
. 在这里插入图片描述

3 标准互信息(性能评估的指标)
标准互信息度量算法结果与标准结果之间的相似度,如果结果越相似NMI值应接近1;如果算法结果很差则NMI值接近0。

假设对于17个样本点(v1,v2,…,v17)(v1,v2,…,v17)进行聚类
某一种算法得到聚类结果为:
A=[1 2 1 1 1 1 1 2 2 2 2 3 1 1 3 3 3]
标准的聚类结果为:
B=[1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3]
问题:需要度量算法结果与标准结果之间的相似度,如果结果越相似NMI值应接近1;如果算法结果很差则NMI值接近0。
根据公式计算MI的值其中X=unique(A)=[1 2 3] , Y=unique(B)=[1 2 3]:
在这里插入图片描述

首先计算上式分子中联合概率分布
在这里插入图片描述
P(1,1)=5/17,P(1,2)=1/17,P(1,3)=2/17P(1,1)=5/17,P(1,2)=1/17,P(1,3)=2/17
P(2,1)=1/17,P(2,2)=4/17,P(2,3)=0P(2,1)=1/17,P(2,2)=4/17,P(2,3)=0
P(3,1)=0,P(3,2)=1/17,P(3,3)=3/17P(3,1)=0,P(3,2)=1/17,P(3,3)=3/17
再计算分母中概率函数P(i)=Xi/N,P(i)为ii的概率分布函数,P′(j)为jj的概率分布函数:
对于P(i):
P(1)=8/17,P(2)=5/17,p(3)=4/17P(1)=8/17,P(2)=5/17,p(3)=4/17
对于P(j):
P′(1)=6/17,P′(2)=6/17,P′(3)=5/17P′(1)=6/17,P′(2)=6/17,P′(3)=5/17
根据以上计算可以计算出MI的值。

至于标准化互信息使用第二个公式计算:

上式分母中H(X),H(Y)分别为X,Y的熵:
在这里插入图片描述
对于上面的例子,根据公式计算熵如下:
在这里插入图片描述
综上则可以计算出NMI的值。

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值