机器学习--模型评估

bingogo6

于 2024-03-05 16:41:50 发布

阅读量892

点赞数 18

分类专栏： AI基础算法文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/2301_79391144/article/details/136459158

版权

2 篇文章 0 订阅

订阅专栏

本文介绍了机器学习中的基本概念，包括过拟合和欠拟合现象，以及评估模型的常用方法如留出法、交叉验证（包括P次K折交叉验证）和自助法。重点讨论了模型性能度量，涵盖了回归任务的均方误差和分类任务的各种度量指标（如错误率、精度、查准率、查全率、F1、ROC曲线和AUC），以及代价敏感错误率的计算。

摘要由CSDN通过智能技术生成

1 基本概念

机器学习目标：得到泛化误差小的学习器。实际上只能努力使经验误差小，但经验误差小不代表模型性能就好

在这里插入图片描述
过拟合：学习器能力强大，将训练数据的一些自身特点当作所有样本都具有的特征
欠拟合：学习器能力低下
每种算法都有应对过拟合的方法（之后回头总结）

由于我们无法获得泛化误差，因此，我们使用测试误差来近似泛化误差。要求：测试集数据要与训练集数据互斥

在这里插入图片描述

方法：
· 将数据集划分为k个大小相等的子集
· 每次取1个子集作为测试集，其余子集作为训练集，训练并评估模型，得到1折的评估结果
· 将所有k个子集分别做一次测试集，一共得到k个评估结果，取平均值，得到1次的评估结果
· 重复上述操作P次，将P次评估结果的平均值作为最终评估结果
要求：每一份数据子集都尽量保持数据分布的一致性
特例（留一法）：每个数据子集的大小为1个数据样本

方法：
· 从原始数据集D中有放回地随机采样，放入D’（原始数据集的大小为m）
· 重复上述过程m次，D中一部分样本会在D’中多次出现，一部分样本不会出现（约36.8%）
· 采用D‘作训练集，D\D’作测试集
适用情况：数据量较小时适合

设测试集样本数为m，均方误差计算如下：
在这里插入图片描述

有上述四个概念，可以得到二分类问题的混淆矩阵：
在这里插入图片描述

查准率P（Precision）
定义：预测为正类的样本中，有多少比例确实是正类
查全率（Recall）
定义：实际为正类的样本中，有多少比例被预测为正类（被找了出来）
P-R曲线
作图方法：预测每个样本为正例的概率，将其从大到小排序。按此顺序逐个将样本作为正例进行预测，得到每次预测的P/R值，可以绘制出以R为横坐标，以P为纵坐标的P-R曲线，如下图所示：

观察A, B, C三个学习器的P-R曲线，A的曲线将C的曲线完全包住，因此，可以断定A的性能优于C。但A和B的曲线发生了交叉，进而使用***BEP（平衡点：即P=R时的点）***判断，由图可知，A的BEP点高于B的BEP点，因此，可以认为A的性能优于B。
F1、F_β度量

当β>1时，查全率更重要；β<1时，查准率更重要；β=1时，退化为F1度量