1. 模型评估与模型选择
在实际应用中,针对具体的监督学习问题,为了评估所训练出的模型是否有较好地泛化能力,可以把数据集切割成训练集和测试集两部分(注意使训练集和测试集中均含有各种类型的数据)。
用训练集在各种条件下(如:不同的参数个数)训练模型,学习出其参数后,再在测试集上评价各个模型的测试误差。选择测试误差最小的模型。
引用Andrew Ng的机器学习课程中的一个例子进行说明。
假设要在10个不同次数的多项式模型之间进行选择:
1. hθ(x)=θ0+θ1x
2. hθ(x)=θ0+θ1x+θ2x2
3. hθ(x)=θ0+θ1x+⋯+θ3x3
⋮
10. hθ(x)=θ0+θ1x+⋯+θ10x10
决策函数 hθ(x)
训练集误差 Jtrain(θ)
测试集误差