Metrics

最新推荐文章于 2023-01-06 23:14:54 发布

kakak_

最新推荐文章于 2023-01-06 23:14:54 发布

阅读量205

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/kakak_/article/details/104350812

版权

Machine Learning 专栏收录该内容

38 篇文章 2 订阅

订阅专栏

precision、Recall、specificity

$TP_i$ 是指分类i的True Positive；预测为正样本，实际也为正样本的样本数
$FP_i$ 是指分类i的False Positive；预测为正样本，实际为负样本的样本数
$TN_i$ 是指分类i的True Negative；预测为负样本，实际也为负样本的样本数
$FN_i$ 是指分类i的False Negative；预测为负样本，实际为正样本的样本数

精确率(Precision) $\frac{TP}{TP + FP }$
召回率(Recall) $\frac{TP}{TP + FN }$
准确率(Accuracy) $\frac{TP+TN}{TP + FN+FP + TN }$
特异性(specificity) $\frac{TN}{FP + TN }$

假如有100个样本，其中1个正样本，99个负样本：

如果模型的预测只输出0，那么准确率是99%，精确率和召回率为0。
如果模型的预测只输出1，那么准确率是1%，精确率为1%，召回率为100%。
这时候用哪一个来衡量模型的好坏显然都是不适合的。
对于不平衡的二分类问题，F1score和AUC的评价指标更为恰当。

F1score

F1分数可以看作模型准确率和召回率的一种加权平均，最大值是1，最小值是0，值越大意味着模型越好。
F1用来衡量二元分类器性能。 micro F1score和macro F2score用来衡量多元分类器性能。

F1score

$F_1=\frac{2}{ \frac{1}{P} + \frac{1}{R}}=\frac{2P*R}{P + R}$ 参数𝛽衡量PR两者关系 $F_\beta = \frac{(1+\beta^2)*P*R}{\beta^2*P + R}$ 如果𝛽>1，召回率有更大影响，如果𝛽<1，精确率有更大影响。当𝛽=1，精确率和召回率影响力相同，和F1形式一样。

macro F1score

假设对于一个多分类问题，有三个类，分别记为1、2、3，

分别计算每个类的precision， $P_i$
每个类的recall， $R_i$
随后计算每个类的F1score：F1，F2，F3
macro F1score就是： $F1score=\frac{(F1+F2+F3)}{3}$

micro F1score

如果这个数据集中各个类的分布不平衡的话，更建议使用mirco-F1，因为macro没有考虑到各个类别的样本大小。

micro precision $P_{mi}=\frac{TP_1+TP_2+TP_3}{TP_1+TP_2+TP_3+FP_1+FP_2+FP_3}$
micro recall $R_{mi}=\frac{TP_1+TP_2+TP_3}{TP_1+TP_2+TP_3+FN_1+FN_2+FN_3}$
则micro F1score为 $F1score=\frac{2P_{mi}*R_{mi}}{P_{mi} + R_{mi}}$

RoC曲线和PR曲线

灵敏度(true positive rate ,TPR)，所有实际正例中，正确识别的正例比例。和召回率的表达式相同： $\frac{TP}{TP + FN }$
特异度(false positive rate, FPR)，所有实际负例中，错误识别为正例的比例： $\frac{FP}{FP +TN}$
以TPR为y轴，以FPR为x轴，就得到了RoC曲线。TPR越高，FPR越小，模型和算法就越高效，也就是画出来的RoC曲线越靠近左上越好。RoC曲线下方的面积越大则模型越优，所以RoC曲线下的面积，即AUC（Area Under Curve）值可作为算法和模型好坏的标准。
以精确率为y轴，以召回率为x轴，就得到了PR曲线。精确率越高，召回率越高，模型和算法就越高效，也就是画出来的PR曲线越靠近右上越好。

kakak_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Metrics

F1scoreF1score(以下简称F1)是用来评价二元分类器的度量，它的计算方法如下：F1是用来衡量二维分类的。micro F1score,和macro F2score则是用来衡量多元分类器的性能。假设对于一个多分类问题，有三个类，分别记为1、2、3，TPi是指分类i的True Positive；FPi是指分类i的False Positive；TNi是指分类i的True N...
复制链接

扫一扫