一、相关概念
1、真实值actual value和预测值predicted value
这两者就是字面的意思,actual value是指真实记录的已发生的测量结果值,而predicted value是指对未发生的预测值。这里的值既可以是数值型,也可以是类别型。
2、真True、假False
这两个表示的是真实值与预测值之间是否吻合,true表示的是预测值与真实值一致,而false表示的是预测值与真实值不一致。
3、阳性Positive(正)、阴性Negative(负)
首先这里讨论的positive和negative不代表性别的取向,同时正和负也不代表正确或者错误。positive指条件或者事物存在,而negative指条件或者事物不存在。例如异常检测领域阳性positive代表存在异常,阴性negative代表不存在异常;如健康领域阳性positive代表检测存在病毒或者疾病,阴性negative代表检测结果是健康的。再如电子商务领域阳性positive代表点击或者成交,阴性negative代表未点击或者未成交。
二、分类指标的定义和说明(准确率、精确率、召回率、误报率、漏报率)
分为阳性(正,后面两者混用)样例 和 阴性(负,后面两者混用)样例
正样本预测为正样本 的为 True positive()
正样本预测为负样本 的为False negative()
负样本预测为正样本 的为False positive()
负样本预测为负样本 的为True negative()
所以有,
(理解)
1、准(正)确率accuracy
反映分类器或者模型对整体样本判断正确的能力,即能将阳性(正)样本positive判定为positive和阴性(负)样本negative判定为negative的正确分类能力。值越大,性能performance越好
这里注意,在负样本占绝对多数的场景中,不能单纯追求准确率,因为将所有样本都判定为负样本,这种情况下准确率也是非常高的。
2、精确率precision
反映分类器或者模型正确预测正样本精度的能力,即预测的正样本中有多少是真实的正样本。值越大,性能performance越好
这里注意,单纯追求精确率,会造成分类器或者模型少预测为正样本,这时低,即精确率就会很高。
3、召回率recall,也称为真阳率、命中率(hit rate)
反映分类器或者模型正确预测正样本全度的能力,增加将正样本预测为正样本,即正样本被预测为正样本占总的正样本的比例。值越大,性能performance越好
这里注意,单纯追求召回率,会造成分类器或者模型基本都预测为正样本,这时低,即召回率就会很高。
4、误报率false alarm,也称为假阳率、虚警率、误检率
反映分类器或者模型正确预测正样本纯度的能力,减少将负样本预测为正样本,即负样本被预测为正样本占总的负样本的比例。值越小,性能performance越好
5、漏报率miss rate,也称为漏警率、漏检率
反映分类器或者模型正确预测负样本纯度的能力,减少将正样本预测为负样本,即正样本被预测为负样本占总的正样本的比例。值越小,性能performance越好