Task4 模型训练与验证
1 训练集、验证集和测试集
训练集(Train Set):模型用于训练和调整模型参数
验证集(Validation Set):用来验证模型精度和调整模型超参数
测试集(Test Set):验证模型的泛化能力
假设用一个长方形表示训练数据,我们通常会将这些数据划分成三部分,一部分作为训练集(Train Set),一部分作为验证集(Validation Set),最后一部分则作为测试集(Test Set)。
在机器学习发展的小数据量时代,常见做法是将所有数据三七分,就是人们常说的 70% 训练集,30%测试集,如果没有明确设置验证集,也可以按照 60%训练集,20%验证集和 20%测试集来划分。
但是在大数据时代,我们现在的数据量可能是百万级别,那么验证集和测试集占数据总 量的比例会趋向于变得更小。假设我们有 100 万条数据,其中 1 万条作为验证集,1 万条作为测试集, 100 万里取 1 万,比例是 1%,即:训练集占 98%,验证集和测试集各占 1%。
验证集的划分有如下几种方式:
留出法(Hold-Out)
直接将训练集划分成两部分,新的训练集和验证集。这种划分方式的优点是最为直接简单;缺点是只得到了一份验证集,有可能导致模型在验证集上过拟合。留出法应用场景是数据量比较大的情况。
交叉验证法(Cro