学习笔记—诊断机器学习模型

本文介绍了在Coursera机器学习课程中学到的模型诊断方法,包括高偏差与高方差的识别,以及如何通过调整训练集样本量、特征变量数量和正则化参数来改善模型性能。通过学习曲线可以判断模型是欠拟合还是过拟合,并据此采取相应措施。
摘要由CSDN通过智能技术生成

应用机器学习过程中的建议

本文源自在Coursera平台学习machine learning 过程中的一些记录

在评价一个机器学习模型时,当你发现你的模型在测试集上的预测性能非常差时,通常有一下解决办法:
- 增加训练集样本量;
- 减少输入特征变量数目;
- 增加额外的特征变量;
- 增加多项式特征变量;
- 增大或降低lambda值;

要评价一个模型,一般可以采用70%的数据量做训练集,另外30%的数据量用作测试集,评价模型的泛化性能。

模型选择与样本集设置
怎样进行模型选择呢?
模型选择

首先,针对不同的参数集分别训练获得初步模型,然后分别用这些模型预测测试集样本,测试集误差最小的模型,即判断为最优模型。

一般在评价模型时,需要将样本集划分为训练集验证集测试集的组合,其对应的比例分别为6:2:2
为什么要划分成三组数据集呢?虽然模型训练过程中都未用到过验证集和测试集,但是模型

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值