有关于huggingface evaluate的使用

最新推荐文章于 2024-08-08 07:38:45 发布

Reza.

最新推荐文章于 2024-08-08 07:38:45 发布

阅读量2.2k

点赞数 4

分类专栏：深度学习文章标签： python 人工智能

本文链接：https://blog.csdn.net/weixin_43301333/article/details/128510258

版权

深度学习专栏收录该内容

83 篇文章 24 订阅

订阅专栏

文章介绍了在transformers库的新版本中，如何使用evaluate模块来计算准确性、F1、精确率和召回率等常见评估指标。对于单个和多个指标的计算，提供了详细的代码示例。在多分类问题中，需要注意f1指标的平均方式。同时强调了不同版本的evaluate可能存在的接口差异。

摘要由CSDN通过智能技术生成

老版本Transformer的from datasets import load_metric，在新版本中被替换成了evaluate。

这个包挺难用的，而且不同版本的接口都有点不太一样，本博客以transformers==4.18.0, evaluate==0.4.0为例，示范一下如何使用evaluate进行常见的metrics的计算。

计算单个metric

pred = [0,1,2,2,3]
ref = [0,2,2,3,3]

acc_metric = evaluate.load("accuracy")
acc_metric.compute(predictions=pred, references=ref)

输出（python字典）：

{'accuracy': 0.6}

同时计算多个metric

利用combine可以同时load多个metric，compute之后返回所有metric的分数。

pred = [0,1,1,1,0]
ref = [0,0,1,0,1]

metrics = evaluate.combine(["accuracy", "f1", "precision", "recall"])
metrics.compute(predictions=pred, references=ref)

输出：

{'accuracy': 0.4, 'f1': 0.4, 'precision': 0.3333333333333333, 'recall': 0.5}

这里要注意，f1的接口默认average的方式是binary，所以上述二分类问题直接计算不会有问题。但是如果是多分类，就不能使用combine了，因为acc是没有这个**kwargs的。

计算多个metric（多分类）

这种情况下，得单独load每个metric，然后再分别compute。compute的时候，f1记得传入参数“average”：

pred = [0,1,2,2,3]
ref = [0,2,2,3,3]

acc_metric = evaluate.load("accuracy")
f_metric = evaluate.load("f1")
r_metric = evaluate.load('recall')
p_metric = evaluate.load('precision')

result = dict()
result.update(acc_metric.compute(predictions=pred, references=ref))
result.update(f_metric.compute(predictions=pred, references=ref,average="macro"))
result.update(p_metric.compute(predictions=pred, references=ref,average="macro"))
result.update(r_metric.compute(predictions=pred, references=ref,average="macro"))

print(result)

这样的话就能实现相同的效果，输出：

{'accuracy': 0.4, 'f1': 0.4, 'precision': 0.41666666666666663, 'recall': 0.41666666666666663}

总结

直接load metric，然后compute，就能获得一个字典。
如果要同时计算多个metric，而且这些metric的接口一致，则利用combine；如果这些metrics的接口不一致（例如，f1相较于acc，会额外需要average参数），则只能分别load和compute。