一 名词解释
训练误差:模型在训练集上的误差.
泛化误差:新样本在学模型上的误差
泛化能力: 指机器学习算法对新样本的适应能力
二 模型选择与评估方法
通常为了选择适当的模型,我们需要对该模型进行评估,可以使用实验测试对模型的泛化误差进行比较,因此,需要测试集。用测试误差来近似泛化误差。
测试集:也是从样本真实分布中独立同步采样得来的,应该尽可能与训练集互斥,不在训练集中出现,未在训练过程中使用。
例如:对于一个包含m个样例的数据集D={(x1,y1),(x2,y2),…(xm,ym)}需要产生训练集S与测试集T
具体方法
1、留出法
直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即有
D=S∪T,S∩T=∅注意点
1.训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响。通常使用分层采样。
2. 单次使用留出法的估计结果往往不可靠,使用留出法一般要若干次随机划分,重复进行实验评估后取平均值作为留出法的评估结果。
2、交叉验证法
通过分层采样的方式从中将数据集划分为k个大小相似的互斥子集。选k-1个子集的并集作为训练集,余下作为测试集。
D=D1∪D2∪…∪Dk,Di∩Dj