评估分类器性能的度量

1.正元组和负元组

正元组:感兴趣的类的元组

负元组:其他类的元组

比如说:

正元组可能是buys_computer=yes

负元组是buys_computer=no


2.公式


TP,TN,FP,FN,P,N分别表示真正例、真负例、假正例、假负例、正和负样本数

含意:

TP(true positive):指被分类器正确分类的正元组

TN(true negative):指被分类器正确分类的负元组

FP(false positive):被错误地标记为正元组的负元组(例如,类buys_computer=no的元组,被分类器预测为buys_computer=yes)

FN(false negative):被错误地标记为负元组的正元组


3.混淆矩阵


对角线越大,即TP+TN越大,则准确率越高

1)对于类不平衡问题,只看准确率是不行的,要结合召回率查看所关注的类是否正确标记正类。

如:


总结:尽管准确率有96.4%,但是召回率就只有30%,它正确标记所关注的类的能力还是很差

2)精度和召回率呈现逆关系(互相影响的),用F值来度量

4.其他对分类器的度量:

速度:设计产生和使用分类器的计算开销

鲁棒性:假定数据有噪声或有缺失值时分类器做出正确预测的能力。通常,鲁棒性用噪声和缺失值渐增的一系列合成数据集评估

可伸缩性:算法的可伸缩性是指该算法能不能够用来处理大量的样本。(超大型的训练集)

可解释性:设计分类器或预测器提供的理解和洞察水平。可解释性是主观的,因而很难评估。决策树和分类规则可能很容易解释,但随着他们变得更复杂,他们的可解释性也随之消失。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

洛克-李

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值