ML21-模型评估选择-章节核心知识点

最新推荐文章于 2024-10-25 18:00:00 发布

Roswellii

最新推荐文章于 2024-10-25 18:00:00 发布

阅读量152

点赞数

文章标签：机器学习决策树算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/roswellnotfound/article/details/122184043

版权

[笔记整理]

拟合与过拟合
1. 过拟合是习得了训练集本身的特点。
  1. 应对：正则项，早停。
2. 欠拟合是训练集的一般特点还没学好。
  1. 应对：决策树增加分支，神经网络增加训练轮数。

泛化误差与测试误差：实际中泛化误差很难取得，所以一般用测试集上产生的测试误差代替。测试集需要尽可能保持真实情况下的分布。

训练\测试集分割方法：
1. 留出法：
  1. 简单分割，划为训练、测试两个互斥集合。
  2. 划分带有随机性，所以一般进行多次训练，取平均值。
2. 交叉验证法：
  1. 将数据集平均分割成K份，其中K-1份用于训练，剩下一个用于测试。每一次划分可以进行K次训练。
  2. 划分同样带有随机性，因此一般进行多次划分，取平均值。
  3. p次k折交叉验证指的是进行p次训练，每一次都将数据集划分成k份。
3. 自助法：
  1. 有放回地取数据建立训练集
  2. 训练集大小与数据集一样。可能存在重复采样。
  3. 利于进行集成学习，适用于小数据集。
  4. 会引入偏差，改变分布。

回归问题一般用均方误差进行性能度量。

查准率：真实为正且预测为正/(真实为正预测为正+ 真实为负预测为正)

查全率：真实为正且预测为正/(真实为正预测为正+ 真实为正预测为负)

P-R曲线
1. 绘制方法：按置信率从大到小排列样本，逐个设为阈值，得到当前情况的混淆矩阵，进而计算查准率和查全率制图。
2. 能包住别的曲线的学习器有更好的性能。
3. 平衡点用于在不同学习器的曲线交叉时度量性能。

ROC：
1. 纵轴：真正例率= 真实为正预测为正/真实为正预测为正+真实为正预测为负
2. 横轴：假正例率=真实为负预测为正/真实为负预测为负+ 真实为负预测为正

泛化误差=偏差+方差+噪声
1. 偏差：算法本身拟合能力
2. 方差：训练数据扰动的影响
3. 噪声：问题本身的难度

泛化误差的影响因素：
1. 初期：偏差-算法本身
2. 中期：方差-数据
3. 后期：方差-数据

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。