一般对于算法模型的评估量有很多,常用到的是精确率和真正率(召回率)以及ROC曲线和PR曲线,之前也有提到,今天查找了一些资料对着四个评估量进行一个小总结。
1、首先是对一些概念的理解
TP 真正 是指预测为正样本,实际也是正样本的特征数
FP 假正 是预测为为正样本,实际为负样本的特征数
TN 真负 是预测为为负样本,实际也是负样本的特征数
FN 假正 是预测为负样本,实际为正样本的特征数
2、公式
真正率=TP/(TP+FN) 正确的被判断正的概率
准确率=TP/(TP+FP) 预测为正的样本中,实际为正的概率
负正率=FP/(FP+TN)
真负率=TN/(TN+FP)=1-真正率 错误的预测为负的概率
3、ROC曲线PR曲线
ROC曲线是以负正率为X轴,以真正率为Y轴得到的曲线,当真正率越高,负正率越低,这个模型或者算法就更有效。在图上显示的位曲线越靠近左上方效果越好,即曲线下方的面积越大,模型越好。
PR曲线是以真正率为X轴,以准确率为Y轴得到的曲线,当准确率越高,真正率越高,其模型和算法越有效。在图上显示为曲线越靠近右上方越好,即曲线下方面积越大,模型越好。