模型评估与选择

在这里插入图片描述

相关概念

1. 误差
1)定义:预测值与实际值之间的偏差
2)训练误差:训练集上的误差大小
3)测试误差:测试集上的误差大小,其中测试误差近似与泛化误差
2. 拟合
1)过拟合:训练误差小,而泛化误差大
2)欠拟合:训练误差很大

评估方法

1. 留出法
1)定义:数据集分为训练集与测试集两部分(两者之间互斥)
2)问题:数据集分类以及分类顺序影响测试结果
3)解决:数据集随机划分,取多次测量结果的平均值
其次,训练集一般取2/3或者4/5
2. 交叉验证法
1)定义:数据集随机划分为k组,划分应该保持数据分布一致。k-1组作为训练集,余下一组作为测试集。k组中每一组依次作为测试集,其余组作为训练集。最终取结果的平均值。
2)问题:数据划分不一致问题,同留出法类似
3)解决:多次随机划分数据集,最终取结果的均值
4)补充:留一法:当数据集中含有m个样本,且划分为m个组。因为每一次只抽出一组作为测试集,因此留一法的训练模型与期望评估中的训练模型类似,故其结果被认为要更准确。但是样本数据量要是非常大,其评估效率将大大降低。
3. 自助法
1)定义:数据集中包含m个样本,在数据集中随机挑选m次,将选中的m个样本(存在重复的样本)作为训练集。未被选中的样本作为训练集(未被选中的样本概率在0.368)。
2)总结:自助法适用于数据集较小、难以有效划分训练/测试集时使用
4. 调参与最终模型
1)问题:在进行模型评估和选择时,除了要对使用学习的算法进行选择,还要对算法参数进行设定。机器学习涉及两类参数:算法的参数-超参,模型的参数。两者的调参方式类似,都是产生模型之后根据某种评估方法进行选择,不同之处在于前者是人工设定,后者是通过学习获得。
2)解决:由于参数的取值往往是实数域,现实任务中不可能把所有的参数配置出模型,需要设定范围和步长,在计算开销和性能估计之间做出选择。例如线性回归中梯度下降算法中选择合适的下降步幅。

性能度量

定义:衡量模型泛化能力的指标。其反应了模型泛化能力的好坏,但是对于不同的任务应该选择不同的性能度量。
1.错误率与精度
1)错误率:错误样本占总样本的比例
2)精确度:1-错误率
2.查准率、查全率与F1
1)查准率:真正例/所有预测正例
2)查全率:真正例/所有样本正例
补充:一般查全率较高,则查准率较低。相反,查全率较低,则查准率较高。
3)混淆矩阵:预测情况和真实情况组成的矩阵
4)PR曲线:反应训练过程中,查准率和查全率变化的过程
补充:若一个学习器的PR曲线完全由另一个学习器的PR曲线包住,则可认为后者的学习器性能强于前者。
5)平衡点:PR曲线上查全率=查准率的点
6)F1:基于查准率和查全率的调和平均
7)Fβ:则是加权调和平均
8)宏查准率:所有混淆矩阵的查准率的均值
9)宏查全率:所有混淆矩阵的查全率的均值
10)宏F1:宏查准率和宏查全率的调和平均
3.ROC与AUC
1)ROC:横坐标是假正利率,纵坐标是真正利率
2)AUC:ROC曲线下方的面积
在这里插入图片描述
排序损失:
在这里插入图片描述
在这里插入图片描述
4.代价敏感错误率和代价曲线
1)非均等代价:不同错误造成的不同损失
2)代价矩阵:表示不同结果的代价矩阵
3)代价敏感错误率:
在这里插入图片描述
补充:在非均等代价下,ROC曲线不能直接反应出学习器的期望总体代价,而代价曲线可以
4)代价曲线:代价曲线的横轴是正例概率代价,纵轴是归一化代价
在这里插入图片描述
在这里插入图片描述
补充:规范化:将不同范围的值映射到相同的固定范围,又称为归一化。

比较检验

评估方法:对学习器进行训练和评估的方法
性能度量:对学习器性能的度量
比较检验:如何对性能度量进行比较
1)机器学习性能度量比较复杂的原因:
a.通过评估方法得到的测试集性能与泛化性能不一定相同
b.测试集的选择影响测试性能
c.很多机器学习算法具有随机性,相同的参数在同一测试集上验证结果不一定相同
2)二项检验:单个学习器泛化性能的假设进行比较
3)交叉验证t检验、McNemar检验:在一个数据集上比较两个算法
4)Friedman检验、Nemenyi检验:在多个数据集上比较多个算法

偏差与方差

1)偏差-方差分解:解释学习算法泛化性能的重要工具
2)基于均方误差的回归问题,算法的期望泛化误差可以分解为偏差、方差、噪声的和。
偏差刻画了预测结果与真实结果的偏离程度,表示学习算法的拟合能力
方差度量了训练集的变动对学习性能的影响
噪声则是当前任务上所有学习算法所能达到的期望泛化误差的下限
一般来说,偏差和方差是冲突的,随着训练程度提高,偏差下降、方差上升。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值