阿里云天池零基础入门CV赛事(6)——模型训练与验证

本文介绍了机器学习中的模型训练与验证,包括训练集、验证集和测试集的划分,如70/30或60/20比例。随着数据量增加,验证集和测试集占比变小。讨论了留出法、交叉验证法和自助采样法三种验证集划分方法,以及欠拟合和过拟合的概念。
摘要由CSDN通过智能技术生成

Task4 模型训练与验证

1 训练集、验证集和测试集

训练集(Train Set):模型用于训练和调整模型参数
验证集(Validation Set):用来验证模型精度和调整模型超参数
测试集(Test Set):验证模型的泛化能力
在这里插入图片描述
假设用一个长方形表示训练数据,我们通常会将这些数据划分成三部分,一部分作为训练集(Train Set),一部分作为验证集(Validation Set),最后一部分则作为测试集(Test Set)。
在机器学习发展的小数据量时代,常见做法是将所有数据三七分,就是人们常说的 70% 训练集,30%测试集,如果没有明确设置验证集,也可以按照 60%训练集,20%验证集和 20%测试集来划分。
但是在大数据时代,我们现在的数据量可能是百万级别,那么验证集和测试集占数据总 量的比例会趋向于变得更小。假设我们有 100 万条数据,其中 1 万条作为验证集,1 万条作为测试集, 100 万里取 1 万,比例是 1%,即:训练集占 98%,验证集和测试集各占 1%。

验证集的划分有如下几种方式:
留出法(Hold-Out)
直接将训练集划分成两部分,新的训练集和验证集。这种划分方式的优点是最为直接简单;缺点是只得到了一份验证集,有可能导致模型在验证集上过拟合。留出法应用场景是数据量比较大的情况。
交叉验证法(Cro

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值