机器学习性能度量-CSDN博客

本文链接：https://blog.csdn.net/Alinawly/article/details/80830177

性能度量

即对学习器泛化能力的评估标准。根据不同的任务需求选择不同的性能度量方式

回归任务中性能度量

最常用的性能度量方式是：均方误差

更一般的，对于数据集D 和概率密度p ，均方误差可以描述为：

分类任务中性能度量

1. 错误率与精度

错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例，错误率+精度=1。

2. 查准率、查全率、F1

查准率:也称为准确率precision，即预测结果是正类的样本中分类正确的比例。

查全率：也称为召回率recall，即实际是正类样本被分类正确的比例。

混淆矩阵如下：

真实情况	预测结果
真实情况	正例	反例
正例	TP(真正例True Positive)	FN(假反例False Negative)
反例	FP(假正例False Positive)	TN(真反例True Negative)

F1：查全率和查准率其实是一对矛盾的度量，想要查全率高，可以把所有样本都选进来，那自然所有的实际正类样本都被挑出来了，查全率自然高，但查准率会低；想要查准率高，可以把最可能是正类的样本选进来，那查准率就高了，但肯定预测出来的正类不全。因此 F1就是基于P和R的调和平均。但是为什么不用算术平均而是用调和平均呢？
原因是调和平均会在P和R相差较大时偏向较小的值。Fβ中的β>0,度量了P和R的相对重要性。

3. ROC与AUC

很多学习器是为测试样本产生一个实值或概率预测，然后将之歌预测值与一个分类阈值进行比较，若大于阈值则分为正类，否则为反类。因此将学习器的预测结果对样本进行排序，按照顺序逐个将样本作为正例预测，每次算出TPR（真正例率）和FPR（假正例率），分别TPR和FPR作为纵坐标和横坐标，最后构成的曲线叫“ROC曲线”。ROC称为‘受试者工作特征’。