模型评估与选择

0110_

于 2022-07-16 17:36:58 发布

阅读量357

点赞数

分类专栏：机器学习文章标签：机器学习

博客皆个人学习过程中整理，如有问题，欢迎大家指正。

本文链接：https://blog.csdn.net/qq_42017331/article/details/125816493

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在这里插入图片描述

评估方法

1. 留出法
1）定义：数据集分为训练集与测试集两部分（两者之间互斥）
2）问题：数据集分类以及分类顺序影响测试结果
3）解决：数据集随机划分，取多次测量结果的平均值
其次，训练集一般取2/3或者4/5
2. 交叉验证法
1）定义：数据集随机划分为k组，划分应该保持数据分布一致。k-1组作为训练集，余下一组作为测试集。k组中每一组依次作为测试集，其余组作为训练集。最终取结果的平均值。
2）问题：数据划分不一致问题，同留出法类似
3）解决：多次随机划分数据集，最终取结果的均值
4）补充：留一法：当数据集中含有m个样本，且划分为m个组。因为每一次只抽出一组作为测试集，因此留一法的训练模型与期望评估中的训练模型类似，故其结果被认为要更准确。但是样本数据量要是非常大，其评估效率将大大降低。
3. 自助法
1）定义：数据集中包含m个样本，在数据集中随机挑选m次，将选中的m个样本（存在重复的样本）作为训练集。未被选中的样本作为训练集（未被选中的样本概率在0.368）。
2）总结：自助法适用于数据集较小、难以有效划分训练/测试集时使用
4. 调参与最终模型
1）问题：在进行模型评估和选择时，除了要对使用学习的算法进行选择，还要对算法参数进行设定。机器学习涉及两类参数：算法的参数-超参，模型的参数。两者的调参方式类似，都是产生模型之后根据某种评估方法进行选择，不同之处在于前者是人工设定，后者是通过学习获得。
2）解决：由于参数的取值往往是实数域，现实任务中不可能把所有的参数配置出模型，需要设定范围和步长，在计算开销和性能估计之间做出选择。例如线性回归中梯度下降算法中选择合适的下降步幅。

性能度量

定义：衡量模型泛化能力的指标。其反应了模型泛化能力的好坏，但是对于不同的任务应该选择不同的性能度量。
1.错误率与精度
1）错误率：错误样本占总样本的比例
2）精确度：1-错误率
2.查准率、查全率与F1
1）查准率：真正例/所有预测正例
2）查全率：真正例/所有样本正例
补充：一般查全率较高，则查准率较低。相反，查全率较低，则查准率较高。
3）混淆矩阵：预测情况和真实情况组成的矩阵
4）PR曲线：反应训练过程中，查准率和查全率变化的过程
补充：若一个学习器的PR曲线完全由另一个学习器的PR曲线包住，则可认为后者的学习器性能强于前者。
5）平衡点：PR曲线上查全率=查准率的点
6）F1：基于查准率和查全率的调和平均
7）Fβ：则是加权调和平均
8）宏查准率：所有混淆矩阵的查准率的均值
9）宏查全率：所有混淆矩阵的查全率的均值
10）宏F1：宏查准率和宏查全率的调和平均
3.ROC与AUC
1）ROC：横坐标是假正利率，纵坐标是真正利率
2）AUC：ROC曲线下方的面积
在这里插入图片描述
排序损失：

4.代价敏感错误率和代价曲线
1）非均等代价：不同错误造成的不同损失
2）代价矩阵：表示不同结果的代价矩阵
3）代价敏感错误率：

补充：在非均等代价下，ROC曲线不能直接反应出学习器的期望总体代价，而代价曲线可以
4）代价曲线：代价曲线的横轴是正例概率代价，纵轴是归一化代价
在这里插入图片描述

补充：规范化：将不同范围的值映射到相同的固定范围，又称为归一化。

比较检验

评估方法：对学习器进行训练和评估的方法
性能度量：对学习器性能的度量
比较检验：如何对性能度量进行比较
1）机器学习性能度量比较复杂的原因：
a.通过评估方法得到的测试集性能与泛化性能不一定相同
b.测试集的选择影响测试性能
c.很多机器学习算法具有随机性，相同的参数在同一测试集上验证结果不一定相同
2）二项检验：单个学习器泛化性能的假设进行比较
3）交叉验证t检验、McNemar检验：在一个数据集上比较两个算法
4）Friedman检验、Nemenyi检验：在多个数据集上比较多个算法

偏差与方差

1）偏差-方差分解：解释学习算法泛化性能的重要工具
2）基于均方误差的回归问题，算法的期望泛化误差可以分解为偏差、方差、噪声的和。
偏差刻画了预测结果与真实结果的偏离程度，表示学习算法的拟合能力
方差度量了训练集的变动对学习性能的影响
噪声则是当前任务上所有学习算法所能达到的期望泛化误差的下限
一般来说，偏差和方差是冲突的，随着训练程度提高，偏差下降、方差上升。