理解准确率(accuracy)、精度(precision)、查全率(recall)、F1

最新推荐文章于 2024-01-24 17:11:03 发布

bigcharsen

最新推荐文章于 2024-01-24 17:11:03 发布

阅读量3k

点赞数 1

分类专栏： ML 文章标签： accuracy precision recall

2 篇文章 0 订阅

订阅专栏

Precision又叫查准率，Recall又叫查全率。这两个指标共同衡量才能评价模型输出结果。

TP, TN, FP, FN的定义

在二分类问题中。

Real=1	Real=0
Predict=1	TP
Predict=0	FN

总的样本个数为：TP+TN+FP+FN。

Accuracy = (预测正确的样本数)/(总样本数)=(TP+TN)/(TP+TN+FP+FN)

Precision = (预测为1且正确预测的样本数)/(所有预测为1的样本数) = TP/(TP+FP)

Recall = (预测为1且正确预测的样本数)/(所有真实情况为1的样本数) = TP/(TP+FN)

假设100癌症训练集中，只有1例为癌症。如果模型永远预测y=0，则模型的Precision=99/100，很高。但Recall=0/1=0,非常低。
所以单纯用Precision来评价模型是不完整的，评价模型时必须用Precision/Recall两个值。

假设我们得到了模型的Precision/Recall如下

但由于Precision/Recall是两个值，无法根据两个值来对比模型的好坏。有没有一个值能综合Precision/Recall呢？有，它就是F1。

F1 = 2*(Precision*Recall)/(Precision+Recall)

只有一个值，就好做模型对比了，这里我们根据F1可以发现Algorithm1是三者中最优的。

做二值分类时，我们认为，若h(x)>=0.5，则predict=1；若h(x)<0.5，则predict=0。这里0.5就是分类阈值。

增加阈值，我们会对预测值更有信心，即增加了查准率。但这样会降低查全率。（High Precision, Low Recall）
减小阈值，则模型放过的真例就变少，查全率就增加。（Low Precision, High Recall）

        <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/markdown_views-ea0013b516.css">
            </div>

关注

专栏目录