模型选择
训练误差:模型在训练数据上的误差
泛化误差:模型在新数据上的误差
验证数据集:一个用来评估模型好坏的数据集,选择模型的超参数
测试数据集:只用一次的数据集
K-则交叉验证:数据集不够
欠拟合和过拟合
过拟合(overfitting):将模型在训练数据上拟合的比在潜在分布中更接近的现象
正则化(regularization):用于对抗过拟合的技术
模型容量:拟合各种函数的能力,低容量的模型难以拟合训练数据,高容量的模型可以记住所有的训练数据
模型容量对拟合的影响
拟合函数: