机器学习基础算法（4）

最新推荐文章于 2023-10-23 17:01:32 发布

沉迷学习的郑博士

最新推荐文章于 2023-10-23 17:01:32 发布

阅读量525

点赞数 1

分类专栏：机器学习文章标签：机器学习算法分类

本文链接：https://blog.csdn.net/weixin_43238102/article/details/122580844

版权

机器学习专栏收录该内容

11 篇文章 2 订阅

订阅专栏

4、分类模型评估

4.1 模型评价意义

在完成模型构建之后，必须对模型的效果进行评估，根据评估结果来继续调整模型的参数、特征或者算法，以达到满意的结果。

评价一个模型最简单也是最常用的指标就是准确率，但是在没有任何前提下使用准确率作为评价指标，准确率往往不能反映一个模型性能的好坏，例如在不平衡的数据集上，正类样本占总数的95%，负类样本占总数的5%；

那么有一个模型把所有样本全部判断为正类，该模型也能达到95%的准确率，但是这个模型没有任何的意义。

因此，对于一个模型，我们需要从不同的方面去判断它的性能。在对比不同模型的能力时，使用不同的性能度量往往会导致不同的评价结果。不同的任务需求，模型的训练目标不同，评价模型性能的指标也会有所差异。

4.2 分类模型评价指标

4.2.1 混淆矩阵

混淆矩阵是能够比较全面的反映模型的性能，从混淆矩阵能够衍生出很多的指标来。

其中：TP：真正例，实际为正预测为正；FP：假正例，实际为负但预测为正；FN：假反例，实际为正但预测为负；TN：真反例，实际为负预测为负

查准率（精准率）：Precision = TP / (TP+FP)；

查全率（召回率）：Recall = TP / (TP+FN)；

正确率（准确率）：Accuracy = (TP+TN) / (TP+FP+TN+FN)

F值（F1-scores）：Precision和Recall加权调和平均数，并假设两者一样重要。

　　F1-score = (2Recall*Precision) / (Recall + Precision)

查准率和查全率是一对矛盾的度量。一般来说，查准率高时，查全率往往偏低；而查全率高时，查准率往往偏低。通常只有在一些简单任务中，才可能使二者都很高。

4.2.2 PR曲线

P-R曲线的P就是查准率（Precision），R就是查全率（Recall）。以P作为横坐标，R作为纵坐标，就可以画出P-R曲线。

对于同一个模型，通过调整分类阈值，可以得到不同的P-R值，从而可以得到一条曲线（纵坐标为P，横坐标为R）。通常随着分类阈值从大到小变化（大于阈值认为P），Precision减小，Recall增加。比较两个分类器好坏时，显然是查得又准又全的比较好，也就是的PR曲线越往坐标（1，1）的位置靠近越好。若一个学习器的P-R曲线被另一个学习器完全”包住”，则后者的性能优于前者。当存在交叉时，可以计算曲线围住面积，不太容易判断，但是可以通过平衡点（查准率=查全率，Break-Even Point，BEP）来判断。

下图中，基于BEP的比较，可以认为模型A优于模型B。

4.2.3 精确率和召回率

精确率和召回率主要用于二分类问题（从其公式推导也可看出），结合混淆矩阵有：

精确率P和召回率R的定义为：

上述计算公式中的Positive与Negative是预测标签，True与false代表预测正误；
要注意，精确率和召回率是二分类指标，不适用多分类，由此得到P-R曲线以及ROC曲线均是二分类评估指标（因为其横纵轴指标均为二分类混淆矩阵计算得到），而准确率适用于多分类评估。（可以将多分类问题转换为二分类问题进行求解，将关注的类化为一类，其他所有类化为一类）

理想情况下，精确率和召回率两者都越高越好。然而事实上这两者在某些情况下是矛盾的，精确率高时，召回率低；精确率低时，召回率高；关于这个性质通过观察PR曲线不难观察出来。比如在搜索网页时，如果只返回最相关的一个网页，那精确率就是100%，而召回率就很低；如果返回全部网页，那召回率为100%，精确率就很低。因此在不同场合需要根据实际需求判断哪个指标跟重要。