1、训练集、验证集、测试集
“三集” 实际是 将一个数据集分成不同比例的三个小数据集
三个小数据集的比例划分通常为6/2/2
训练集(Training Set):60%
验证集(Cross Validation--cv):20%
测试集(Test Set) :20%
2、利用三集进行 多元函数 模型选择
模型选择方式,即选择最优函数f的方式 (以线性函数为例) 如下图:
解释:参数d: 表示某个模型
首先,使用 训练集 对每个模型函数进行学习,当minJ() 得--> 所学到的
其次, 将学到的+ 验证集 应用到每个所对应的模型函数中, 得-->
(
)
最后,从这所有的 (
) 选出最小值,从何得到我们想要选择的模型函数F
之后,将所选的F 利用 测试集 进行评估