【分类模型评价】宏平均(macro avg)、微平均(micro avg)和加权平均(weighted avg)

当我们使用 sklearn.metric.classification_report 工具对模型的测试结果进行评价时,会输出如下结果:
在这里插入图片描述对于 精准率(precision )、召回率(recall)、f1-score,他们的计算方法很多地方都有介绍,这里主要讲一下micro avg、macro avg 和weighted avg 他们的计算方式。

1、宏平均 macro avg:

对所有类别的平均

精准macro avg
=(P_no+P_yes) / 2
=(0.24+0.73) / 2 = 0.48

2、微平均 micro avg:
对数据集中的每⼀个实例不分类别进⾏统计建⽴全局混淆矩阵,然后计算相应指标:

精准micro avg = 召回micro avg = f1_micro avg
=(TP+TN) / (TP+FP+TN+FN)
=(0.54 * 7535 +0.42 * 22462 ) / (7535+22462)=0.45

3、加权平均 weighted avg:

是对宏平均的一种改进,考虑了每个类别样本数量在总样本中占比

精准加权weighted avg
=P_no * (support_no / support_all)+ P_yes * (support_yes / support_all)
=0.24*(7525 / 29997) + 0.73*(22462 / 29997)=0.61

参考:
分类问题的几个评价指标(Precision、Recall、F1-Score、Micro-F1、Macro-F1)
混淆矩阵(Confusion Matrix)分析
宏平均(macro avg)、微平均(micro avg)和加权平均(weighted avg)
【NLP】再看分类评估指标——宏平均,微平均

  • 6
    点赞
  • 98
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
在模型评估中,通常使用准确率(accuracy)来评估模型的表现,它表示分类正确的样本数占总样本数的比例。但是,当数据集中存在类别不平衡的情况时,准确率可能会忽略少数类别的分类效果。 为了更全面地评估模型性能,通常还会使用平均macro avg)和加权平均weighted avg)两种指标。平均是对每个类别的指标进行算术平均,不考虑各个类别的样本数量。加权平均是对每个类别的指标进行加权平均,考虑各个类别的样本数量。 例如,对于一个多分类问题,假设有3个类别 A、B、C,模型预测结果如下表所示: | 真实标签 | 预测标签 | |--------|--------| | A | A | | A | B | | B | B | | C | B | | C | C | 则模型的准确率为3/5=0.6。平均加权平均的计算如下: - 平均:对于每个类别,计算精确率、召回率和F1值,然后对它们进行算术平均。假设模型预测正确的样本数分别为2、1、1,则各个类别的精确率为2/2=1、1/2=0.5、1/1=1,平均的精确率为(1+0.5+1)/3=0.83。 - 加权平均:对于每个类别,计算精确率、召回率和F1值,然后对它们进行加权平均。假设各个类别的样本数分别为2、1、2,则加权平均的精确率为(2/5\*2+1/5\*1+2/5\*1)=1.2/5=0.24。 综上所述,平均加权平均可以更全面地评估模型的性能,特别是在存在类别不平衡的情况下。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值