机器学习连载系列（二）模型评估与选择 -----西瓜书

fire2fire2

于 2021-05-24 20:28:19 发布

阅读量164

点赞数

分类专栏：学习机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41973062/article/details/117229863

版权

学习机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

目录

1、经验误差与过拟合

2、评估方法

3、性能度量

3.1 错误率与准确率

3.2 查准率、查全率与F1

3.4 代价敏感错误率与代价曲线

4、比较检验

5、方差与偏差

1、经验误差与过拟合

经验误差及训练误差，我们最终的目标是在新样本上的泛化误差最小，但由于事先不知道新样本是什么样，只好努力使经验误差即训练误差最小化。

然而会出现过拟合，且过拟合是无法避免的：机器学习面临的问题通常是NP难甚至更难，而有效的学习算法必然是在多项式时间内运行完成，若可彻底避免过拟合，则通过经验（训练）误差最小化就能获得最优解，这就意味着我们构造性地证明了“P=NP”；因此，只要相信“P≠NP”，过拟合就不可避免。

2、评估方法

留出法：直接将数据集划分为训练集和验证集，为保持分布一致，通常采用分层采样，并采用若干次随机划分，取平均值。
交叉验证法：k折交叉验证，为减小因样本划分不同而引入的差别，k折交叉验证通常要随机使用不同的划分重复p次，最终的评估结果是这p次k折交叉验证结果的均值，例如：10次10折交叉验证。若数据集中共m个样本，k=m时为留一法，准确但计算开销大。

自助法：即可重复采样，有放回采样。从原本含有m个样本的数据集中采样m次，约有1/3没被采样到的数据用作验证集。

在划分为验证集和训练集后，在训练集上训练，用验证集调参，最后用选定的参数在全部数据上（包括现在的训练集和验证集）训练得到模型，所以原始的训练集和最后的训练集数目越接近越好（否则偏差大），但是验证集又不能太小（否则方差大），所以提出了以上的方法。

3、性能度量

衡量模型的泛化能力。均方误差。

3.1 错误率与准确率

错误率与准确率

3.2 查准率、查全率与F1

查准率、查全率与F1

查准率：模型预测为正中实际为正的

查全率：实际为正的被模型预测为正的

P-R图：平衡点（BEP）

F1：

macro、micro

macro：先求各个混淆矩阵的评价指标再求平均

micro：先求TP/FP/TN/FN的均值，在此之上求评价指标

3.3 ROC与AUC

ROC曲线与P-R曲线都是按照预测为正类的概率大小，依次将前n个预测为正类，直到最后一个也预测为正类，在这m个样本也就是m次预测后，将得到m个点，分别计算某一时刻的真正例率与假正例率。

3.4 代价敏感错误率与代价曲线

不同类型的错误所带来的后果不同。

代价敏感错误率（即加权）为

代价曲线

4、比较检验

5、方差与偏差

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习连载系列（二）模型评估与选择 -----西瓜书

1、经验误差与过拟合经验误差及训练误差，我们最终的目标是在新样本上的泛化误差最小，但由于事先不知道新样本是什么样，只好努力使经验误差即训练误差最小化。然而会出现过拟合，且过拟合是无法避免的：机器学习面临的问题通常是NP难甚至更难，而有效的学习算法必然是在多项式时间内运行完成，若可彻底避免过拟合，则通过经验（训练）误差最小化就能获得最优解，这就意味着我们构造性地证明了“P=NP”；因此，只要相信“P≠NP”，过拟合就不可避免。2、评估方法留出法：直接将数据集划分为训练集和验证集，为保持分布一致
复制链接

扫一扫

专栏目录

fire2fire2 CSDN认证博客专家 CSDN认证企业博客

码龄6年

58: 原创

41万+: 周排名

176万+: 总排名

8万+: 访问

: 等级

709: 积分

8: 粉丝

39: 获赞

6: 评论

130: 收藏

私信

关注

分类专栏

最新评论

为什么在LabelEncoder后还要使用onehot？
weixin_49163698: 只用onehotencoder不行吗？
pandas读取多个文件并合并到一起
全村的唯一希望: 有灵感了,谢谢
pandas tips汇总
不正经的kimol君: 好文，鉴定完毕！
pandas tips汇总
LaoYuanPython: 抢到沙发，谢谢分享！原创不易，必须支持！伙计，加油! 最后拉个票，本人正参与博客之星评选，1月24日前每天都可投票，敬请支持！谢谢！投票链接：[code=python] https://bss.csdn.net/m/topic/blog_star2020/detail?username=laoyuanpython [/code] 或到老猿博文首页内的置顶博文跳转！
Linux有用的网址汇总（持续更新中）
不吃西红柿丶: 最近也在学这个，博文写的挺好，宝藏博主~

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。