一文弄懂:训练集、测试集、验证集

  •      训练集:训练集的数据来训练模型
  •      测试集:用测试集的数据来测试模型,通过测试集来评估你的模型,就可以得到对这个误差的评估
  •      验证集:当使用正则化等算法防止过拟合时,需要用验证集得到最佳的超参数和模型

      了解一个模型对于新场景的泛化能力的唯一办法就是,让模型真实地去处理新场景。做法之一是将其部署在生产环境,然后监控它的输出。这个方法用起来不错,不过如果模型非常糟糕,你的用户就会抱怨——所以这显然不是最好的办法。
      更好的选择是将你的数据分割成两部分:训练集和测试集。顾名思义,你可以用训练集的数据来训练模型,然后用测试集的数据来测试模型。应对新场景的误差率称为泛化误差(或者样例外误差),通过测试集来评估你的模型,就可以得到对这个误差的评估。这个估值可以告诉你,你的模型在处理新场景时的能力如何。 (通常使用80%的数据进行训练,保留另外的20%来做测试)
     如果训练误差很低(模型对于训练集来说很少出错),但是泛化误差很高,那说明你的模型对于训练数据存在过度拟合。

验证集

       所以评估一个模型很简单:用测试集就行了。现在假设你在两个模型(一个线性模型和一个多项式模型)之间犹豫不决:如何做出判断呢?做法是训练两个模型,然后对比它们对测试数据的泛化能力。
       现在让我们假设线性模型的泛化能力更强,但是你想要应用一些正则化来避免过度拟合。问题又来了,你要如何选择正则化超参数的值呢?做法之一是使用100个不同的超参数值来训练100个不同的模型。然后假设你由此找到了最佳的超参数值,它生成的模型泛化误差最小,比如仅仅5%。然后你将这个模型运行在生产环境,可是很不幸,它并没有如预期那样工作,反而产生了15%的误差。这到底发生了什么?
       问题出在你对测试集的泛化误差进行了多次度量,并且调整模型和超参数来得到拟合那个测试集的最佳模型。这意味着该模型对于新的数据不太可能有良好的表现。
       常见的解决方案是再单独分出来一个保留集合,称为验证集。在训练集上,使用不同的超参数训练多个模型,然后通过验证集,选择最好的那个模型和对应的超参数,当你对模型基本满意之后,再用测试集运行最后一轮测试,并得到泛化误差的估值。

       为了避免验证集“浪费”太多的训练数据, 常见的技术是使用交叉验证: 将训练集分成若干个互补子集, 然后每个模型都通过这些子集的不同组合来进行训练, 之后用剩余的子集进行验证。 一旦模型和超参数都被选定, 最终的模型会带着这些超参数对整个训练集进行一次训练, 最后再用测试集测量泛化误差。
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

### 验证集测试集机器学习论文中的定义与区别 #### 定义 验证集测试集机器学习研究中常用的两个数据子集,用于评估模型性能的不同阶段。通常,在训练过程中会将整个数据集划分为三部分:训练集验证集测试集。 - **验证集**主要用于调整模型的超参数以及选择最佳模型架构。通过观察验证集上的表现,可以决定哪些超参数组合能够带来更好的泛化能力[^2]。 - **测试集**则是在模型完全训练完毕后使用的独立数据集合,目的是提供一个无偏估计来衡量最终模型的真实性能。由于测试集仅被用来报告最终的结果而不参与任何调优过程,因此它能更真实地反映模型面对未知数据的表现情况[^3]。 #### 应用场景 在实际操作层面: - 当研究人员希望比较不同算法或者同一算法下的多种配置时,他们会依赖于验证集来进行初步筛选。例如,《Comparison of Deep Learning With Multiple Machine Learning Methods and Metrics Using Diverse Drug Discovery Data Sets》一文中提到的各种方法对比实验就可能涉及到了利用验证集挑选最优方案的过程[^1]。 - 而当所有的优化工作完成之后,为了向学术界展示研究成果的有效性和可靠性,则需要用到未见过的数据即测试集来做终极评判依据。这样做的好处是可以防止因过度拟合而导致结论失真现象的发生。 ```python # 示例代码片段展示了如何划分数据并使用验证集测试集 from sklearn.model_selection import train_test_split X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42) X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42) print("Training set size:", len(y_train)) print("Validation set size:", len(y_val)) print("Test set size:", len(y_test)) ``` 尽管如此,在某些特定条件下比如资源有限的情况下,可能会看到有人尝试省略掉单独设置出来的验证步骤而直接采用交叉验证技术或者其他策略替代之;然而无论如何变化形式,保持两者功能分离的原则始终不变——也就是确保有一个干净纯粹只服务于最后效果度量用途的部分存在那里作为保障机制之一以防万一出现偏差误导决策方向的情况发生。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值