深度学习----模型评估

模型评估

首先我们需要清楚,如果你想要买一部手机或者买一部电脑,你会怎样挑选?难道只买贵的?当然,理性的消费往往是理性地综合产品各种性能的评估,比如:我们不仅要看手机的处理器性能如何,也要考虑手机的存储空间,手机的前置摄像头,后置摄像头像素如何,手机内部图像处理的功能如何等等。因此我们要评估一个模型性能如何,要综合模型各个方面来评估。

TP,FN,FP,TP

TP:实际正类,预测正类
FN:实际正类,预测负类
FP:实际负类,预测正类
TN:实际负类,预测负类
TPR=TP/(TP+FN)
FPR=FP/(FP+TN)

(1)模型的Accuracy

假如我们有这样一个分类检测模型,识别某张图片里的动物是猫还是狗,测试集样本为y_hat,训练后预测得到的为y,那么我们可以这样来定义模型的Accuracy=(TP+TN)/Total

Accuracy=sum(y==y_hat) / y.size

如上公式我们可知,假如测试的图片上共有5只猫,3只狗,模型正确识别到2只猫和2只狗,那么我们说这次的Accuracy为(2+2)/8=1/2。

(2)Precision

还是上面那个模型,现实中有很多长得与猫和狗相似的动物,比如小老虎,猫头鹰,狐狸等,这样就容易把小老虎当成猫,把狐狸当成狗,那么对于这样的情况,我们用Precision来区分:

Precision=sum((y_hat==1)&(y==1))/sum(y_hat==1)

假如测试图片上有5只猫,3只狗,2只小老虎,1只狐狸,我们的模型识别到了2只猫但有一只为小老虎,2只狗但有一只为狐狸,那Accuracy=(1+1)/8=1/4,但Precision_cat=1/5,Precision_dog=1/3。

(3)Recall

Recall也就是召回率,指的是在模型预测出的结果中,能正确预测得到某个类所占预测得到这个类的总数的比率,也就是:

Recall=sum((y_hat==1)&(y==1))/sum(y==1)

还是以上模型,我们在(2)中举例说假如测试图片上有5只猫,3只狗,2只小老虎,1只狐狸,我们的模型识别到了2只猫但有一只为小老虎,2只狗但有一只为狐狸。那么Recall_cat=1/2,Recall_dog=1/2。

(4)F1-score

在这里先给出F1-score的定义:

F1=2*Precision*Recall/(Precision+Recall)

有公式我们不难猜出,F1-score是Recall和Precision的一个平衡的指标,也就是说我们利用F1-score来综合判断一个模型是否稳定,好的F1-score表示我这个模型对某个类的召回率和精度都还不错。

(5)AUC&ROC

AUC是一个模型评价指标,用于二分类模型的评价。AUC是“Area under Curve(曲线下的面积)”的英文缩写,而这条“Curve(曲线)”就是ROC曲线。机器学习中的很多模型对于分类问题的预测结果大多是概率,即属于某个类别的概率,如果计算准确率的话,就要把概率转化为类别,这就需要设定一个阈值,概率大于某个阈值的属于一类,概率小于某个阈值的属于另一类,而阈值的设定直接影响了准确率的计算。使用AUC可以解决这个问题。请添加图片描述
对于上图,我们用下图来分析,下图中Threshold是判断阈值,如果准确率大于这个阈值,则判断为正类,如果小于则判断为负类
请添加图片描述
如此以来我们可以根据AUC和ROC来调整我们的阈值,达到更想要的效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值