二分类模型评价指标

最新推荐文章于 2024-07-29 17:57:20 发布

WilenWu

最新推荐文章于 2024-07-29 17:57:20 发布

阅读量818

点赞数 1

分类专栏：数据分析(Data Analysis)

本文链接：https://blog.csdn.net/qq_41518277/article/details/82722194

版权

13 篇文章 7 订阅

订阅专栏

二分类模型指标

TP（实际为正预测为正），FP（实际为负但预测为正），TN（实际为负预测为负），FN（实际为正但预测为负）

准确率
$Accuracy=\Large \frac{TP+TN}{TP+FP+TN+FN}$
查全率（召回率）和查准率
$Recall(Sensitivity)=\Large \frac{TP}{TP+TN}$
$Precision=\Large \frac{TP}{TP+FP}$
$Specificity=\Large \frac{TN}{FP+TN}$
F1度量—查准率和查全率的加权调和平均数
$F_{1}Score=\Large \frac{1}{1/Recall+1/Precision}=\Large \frac{2\times{Recall}\times{Precision}}{Recall+Precision}$
G度量–几何平均数
$G=\sqrt[]{Precision\times{Recall}}$
ROC曲线， AUC
ROC曲线描绘的是不同的截断点时，并以FPR(False Positive Rate)和TPR(True Positive Rate)为横纵坐标轴，描述随着截断点的变小，TPR随着FPR的变化。
纵轴： $TPR=\Large \frac{TP}{TP+FN} \normalsize =Recall$
横轴： $FPR=\Large \frac{FP}{FP+TN}$
KS曲线，KS值
KS曲线和ROC曲线都用到了TPR，FPR。KS曲线是把TPR和FPR都作为纵坐标，而样本数作为横坐标。
TPR和FPR曲线分隔最开的位置就是最好的”截断点“，最大间隔距离就是KS值，通常>0.2即可认为模型有比较好偶的预测准确性
Lift 和Gain图
Lift图衡量的是，与不利用模型相比，模型的预测能力“变好”了多少，lift(提升指数)越大，模型的运行效果越好。
Gain图是描述整体精准度的指标。
$Gain=\Large \frac{TP}{TP+FP}$
$Lift=\Large\frac{\frac{TP}{TP+FP}}{\frac{P}{P+N}}=\frac{Gain}{PR}$