过拟合
当学习器把训练样本学得"太
好"了的时候,很可能巳经把训练样本自身的一些特点当作了所有潜在样本都
会具有的一般性质,这样就会导致泛化性能下降这种现象在机器学习中称为
"过拟合" (overfitting). 与"过拟合"相对的是"欠拟合" (underfitting) ,这
是指对训练样本的一般性质尚未学好.
留出法
"留出法" (hold-out)直接将数据集D 划分为两个互斥的集合?其中一个
集合作为训练集5,另一个作为测试集T, 即D=BUT, 5 门T= 正~.在S 上训
练出模型后,用T 来评估其测试误差,作为对泛化误差的估计.S、T 中样本类别比例差别很大,则误差估计将由于训练/测试数据分布的差异
而产生偏差.
交叉验证法
"交叉验证法" (cross validation)先将数据集D 划分为k 个大小相似的
互斥子集, 即D = D1 U D2υ... U Dk, Di n Dj = ø (í 手j ) . 每个子集Di 都
尽可能保持数据分布的