模型评价指标

分类模型:精确率(accuracy)、召回率、精确率、F值、ROC-AUC
回归模型:RMSE、MSE、MAE、SSE、R2、R2-Adjusted

精确率(accuracy):正确分类的样本/总预测样本数
Accuracy=(TP+TN)/(TP+TN+FP+FN)
召回率:需召回所有真实情况为1的样本,实际按模型召回预测为1且真实的样本 (预测为1且真实的样本/所有真实为1的样本)
Recall=TP/(TP+FN)
精确率:预测为1且正确的样本/所有预测为1的样本
Precision=TP/(TP+FP)
F值:综合recall及precision
F1=2*(recall*precision)/(recall+precision)
ROC-AUC
ROC:receiver operating characteristic curve
AUC:area under curve
Y轴(true positive rate=召回率):TPR= TP/(TP+FN)
X轴(false positive rate=误诊率):FPR=FP/(FP+TN)
ROC:通过调整阈值可以得到不同的点,连接成ROC曲线
AUC由来:对于有交叉的roc曲线,无法通过比较roc来评估模型,因此引入AUC面积。
AUC意义:不关注具体得分,只关注排序结果,表示预测的正例排在负例前面的概率。解释:1.roc曲线下的面积 2.关于排序能力的解释,例如AUC=0.8可解释为在80%的情况下对正样本的打分高于负样本。使用AUC来衡量分类模型的好坏,可以忽略由于选择阈值所带来的影响,还可以帮助建模者选择阈值-凸点。
所有的样本通过分类器输出的概率分布如下:
在这里插入图片描述
与roc曲线的对比:
阈值为0.8:
在这里插入图片描述
阈值为0.5
在这里插入图片描述
重合部分变小:
在这里插入图片描述
重合部分变大:
在这里插入图片描述
AUC存在最大值(Max AUC)
影响Max AUC的因素:样本的不确定性(相同feature不同label,特征选取不精确),假设共有100条相同特征的数据,50条 label=1,50条label=2,(重复率=1),AUC则会近似于0.5。AUC与不确定性之间的关系如下图:
在这里插入图片描述
贝叶斯错误率(Bayes Error Rate,BER)
任意一个分类器在一个数据集上能取得的最低错误率(不可约错误)

在这里插入图片描述
AUC与错误率之间的关系:
在这里插入图片描述
RMSE(平方根误差)
在这里插入图片描述
MSE(均方误差):
在这里插入图片描述
MAE(绝对误差):
在这里插入图片描述
SSE(残差平方和,估计值与真实值的误差):
在这里插入图片描述
SST(离差平方和,真实值与平均值的误差,反映样本分散程度)

SSR(回归平方和,预测数据与真实数据均值的误差)
在这里插入图片描述
SST=SSR+SSE

R2(决定系数)
R2=SSR/SST=1-SSE/SST
R2-adjusted(R2-adjusted< R2,分子分母分别除以自由度,以去除样本及变量个数的影响)
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值