训练集、验证集和测试集

数据集通常分为训练集、验证集和测试集。训练集用于模型拟合,调整普通参数;验证集则在模型训练过程中用于超参数调优和初步评估模型泛化能力;测试集则在最后评估模型的泛化性能,不参与模型训练过程。验证集在神经网络中帮助确定网络结构和训练停止点,而在普通机器学习中常采用交叉验证。
摘要由CSDN通过智能技术生成

- 训练集(training set)

- 验证集(validation set)

- 测试集(test set)

一般数据集是trainset和testset,而trainset里会拿出一部分样本做validate set

1.训练集(训练模型)

用于模型拟合的数据样本。

确定模型后,用于训练参数,注意训练的是普通参数(每多加入一个数据对模型进行训练,模型中就会受到影响的参数,通过多次迭代不断更新,是一个梯度下降的过程)而不是超参数(超参数是指训练开始之前设置的参数,超参数的选择与训练过程实际上是独立的,训练过程不会影响超参数。但是训练结束后可以根据训练结果考虑超参数是否可优化,可优化的话就调整超参数的值开始下一次训练)

2.验证集(交叉验证集CV)

是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。

通常用来在模型迭代训练时,用以验证当前模型泛化能力(准确率,召回率等),以决定是否停止继续训练。

在神经网络中, 我们用验证数据集去寻找最优的网络深度(number of hidden layers),或者决定反向传播算法的停止点或者在神经网络中选择隐藏层神经元的数量;

在普通的机器学习中常用的交叉验证(Cross Validation) 就是把训练数据集本身再细分成不同的验证数据集去训练模型。

3.测试集(评估模型)

用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值