公众号:尤而小屋
作者:Peter
编辑:Peter
大家好,我是Peter~
机器学习分类模型的评价指标是在衡量模型在未知数据集上的性能表现,通常基于混淆矩阵和相关的评价指标。
最近建立了一个分类模型,在选择评价指标的时候进行了对比不同指标之间,同时也查阅了很多的资料和博客,发现了一个问题:
Accuracy是准确率,Precision是精确率;还是说反过来?
当时小编主要参考了一篇博客,阅读量和收藏量非常高(此刻已经不是这个数):
我看到他的文章里面这样写到:
大为吃惊,非常怀疑,个人印象中不是这样的。
再看看其他的文章:
很多文章都是相反的定义。于是我问了ChatGPT:
机器学习分类模型中哪个代表准确度,accuracy 还是Precision?
那如果从英文转中文的翻译角度来看,也是相同的结果:
所以这篇文章真的是误导了5万多人,可能他们自己都不知道吧!!
小编坚持accuracy代表准确率,precision代表精确率。
所以大家看其他博主文章的时候,自己也要多思考一下,说不定小编公众号的文章也有不恰当的地方,欢迎指正。
下面小编就从混淆矩阵开始,给大家详细介绍下机器学习分类模型中的多个评价指标。
混淆矩阵Confusion Matrix
开局一张图:
其中,Pos代表Positive,Neg代表Negative。描述4个观点:
- True Positive(TP):真正类。样本的真实类别是正类,并且模型识别的结果也是正类。
- False Negative(FN):假负类。样本的真实类别是正类,但模型将其识别为负类。
- False Positive(FP):假正类。样本的真实类别是负类,但模型将其识别为正类。
- True Negative(TN):真负类。样本的真实类别是负类,并且模型将其识别为负类。
那么样本总个数为:样本总数=TP+FN+FP+TN样本总数=TP+FN+FP+TN样本总数=TP+FN+FP+TN
基于混淆矩阵可以计算多个分类的评价指标,下面开始详细介绍:
准确率Accuracy
准确率是最为常用的评价指标,它可以用来表示模型的准确度,即表示为:
准确率=模型识别正确的样本数量样本总数准确率=\frac{模型识别正确的样本数量}{样本总数}准确率=样本总数模型识别正确的样本数量
在这里模型识别正确包含两个部分