学习笔记—诊断机器学习模型

最新推荐文章于 2022-12-29 18:17:52 发布

Dmoll

最新推荐文章于 2022-12-29 18:17:52 发布

阅读量1.2k

点赞数 2

分类专栏： coursera机器学习笔记文章标签：机器学习 coursera机器学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/maryyu8873/article/details/77113928

版权

本文介绍了在Coursera机器学习课程中学到的模型诊断方法，包括高偏差与高方差的识别，以及如何通过调整训练集样本量、特征变量数量和正则化参数来改善模型性能。通过学习曲线可以判断模型是欠拟合还是过拟合，并据此采取相应措施。

摘要由CSDN通过智能技术生成

应用机器学习过程中的建议

本文源自在Coursera平台学习machine learning 过程中的一些记录

在评价一个机器学习模型时，当你发现你的模型在测试集上的预测性能非常差时，通常有一下解决办法：
- 增加训练集样本量；
- 减少输入特征变量数目；
- 增加额外的特征变量；
- 增加多项式特征变量；
- 增大或降低lambda值；

要评价一个模型，一般可以采用70%的数据量做训练集，另外30%的数据量用作测试集，评价模型的泛化性能。

模型选择与样本集设置
怎样进行模型选择呢？

首先，针对不同的参数集分别训练获得初步模型，然后分别用这些模型预测测试集样本，测试集误差最小的模型，即判断为最优模型。

一般在评价模型时，需要将样本集划分为训练集、验证集、测试集的组合，其对应的比例分别为6：2：2。
为什么要划分成三组数据集呢？虽然模型训练过程中都未用到过验证集和测试集，但是模型

最低0.47元/天解锁文章

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。