机器学习中的分类问题和回归问题的性能评估指标

最新推荐文章于 2023-09-26 14:33:31 发布

bwqiang

最新推荐文章于 2023-09-26 14:33:31 发布

阅读量1.3k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/bwqiang/article/details/107533816

版权

本文详细探讨了机器学习中分类和回归问题的性能评估指标。针对分类问题，介绍了混淆矩阵、准确率、错误率、精准率、召回率、F-score、宏平均与微平均以及P-R和ROC曲线等指标；对于回归问题，提到了均方根误差（RMSE）作为主要评估标准。这些指标在评估模型性能时起着关键作用。

摘要由CSDN通过智能技术生成

0、分类问题和回归问题的区别

预测建模是使用已知数据的模型对没有标签或结果的新数据进行预测的过程。

预测建模可以理解为找到一个最佳映射函数 $f (x)$ 逼近于输入变量 $X$ 的真实分布 $y$ 的过程。所以，可以将所有的逼近任务分为分类任务和回归任务。

分类问题和回归问题对真实世界的预测建模方法不同。

分类预测建模是用映射函数 $f (x)$ 对输入变量 $X$ 近似地预测出离散输出变量 $y$ 的任务。

回归预测建模是用映射函数 $f (x)$ 对输入变量 $X$ 近似地预测出连续输出变量 $y$ 的任务。

通俗的说：

分类问题是监督类学习（supervision learning）的一个重要问题。在机器学习中主要分两大类：

评估一个分类器的好坏包括许多项指标。在实际应用中选择正确的评估方法是十分重要的。下面就一一列举一些评价分类问题好坏的性能指标。

假设是二分类问题，计为正例（positive） 和 负例（negative） 分别是：

所以，上述过程可以用混淆矩阵来表示：

上面的表示方法和混淆矩阵中， $T$ 和 $F$ 代表该判别是对的还是错的（true false）， $P$ 和 $N$ 代表这个样本是正的还是负的。

准确率是分类器分类正确的样本数量与样本总数的比：

$\text{Accuracy}=\frac{TP+TN}{TP+TN+FP+FN},$

该公式反映了分类器对整个样本的判定能力，即能够将正的判定为正，负的判定为负。

错误率（Error）则正好与准确率的含义相反，计算公式如下：

$\text{Error}=\frac{FP+FN}{TP+TN+FP+FN}.$

精准率是指即被分类器判定为正类样本中真正的正类样本所占的比重，公式如下：

$\text{Precision}=\frac{TP}{TP+FP},$

关注

专栏目录