详细介绍多分类任务(例如实体识别等)中的评估指标(精确率,召回率,F1 score)

在这里插入图片描述
先上一张图,这是典型的二分类任务。对于多分类任务类似。
比如对于命名实体识别或者词性标记这种序列标注任务,可以把这类任务看成是多分类任务,例如实体识别就是要将文本中的单词识别出相应的地名,人名,机构名等。
我以四个标签(PER,LOC,ORG,O)的实体识别为例,也就是四分类任务,做出如下表格

标签PERLOCORGO
PER80234
LOC59031
ORG681007
O763110

对照着顶上的图,由于是四分类任务,我们要考虑四种情况:
对于PER来说A区域就是80,B区域就是2+3+4=9,C区域就是5+6+7=18,
那么对于类别一PER来说它的P自然就是80/(80+9),R自然就是80/(5+6+7),f1值也就算出来了,其它的三个类别类似,对于LOC,如果感觉不像四个正方形区域就把LOC和PER对换一下一目了然。显然LOC的A区域是90,B区域是5+3+1, C区域是2+8+6

解释一下图片中ABCD区域和表格中数字的含义,A区域也叫True Positive,就是真正类,假如你要预测PER这个类别(那么此时PER是正类,其它三个类别是负类),那么A区域就代表你将原本是PER的正类别正确的预测为PER的数目80,B区域也叫False Positive,就是假正类,也就是你讲原本不是PER的类别预测成了PER的类别,那么精确率P=A/(A+B)就代表预测结果中为正的样本数目中有多少是真正的正样本,C区域也叫False Negative,就是假负类,也就是你将原本是正类PER的类别识别成了其它的三个类别,那么召回率R=A/(A+C)就代表原来样本中为正类的类别数目有多少个被你正确的预测出来,可见精确率是针对预测结果而言的,而召回率是针对原来样本而言的。
F 1 s c o r e = 2 ∗ P ∗ R P + R F1_{score}=\displaystyle\frac{2*P*R}{P+R} F1score=P+R2PR

那么对于模型而言要看的是整体的f1值,一种简单的办法就是计算四个类别的f1值后取平均作为衡量模型整体f1值的标准
  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值