数据集划分
- 数据集(dataset):在机器学习任务中使用的一组数据。数据集中每一个数据称为一个样本。反映样本在某方面的表现或性质的事项或属性称为特征。
- 训练集(training data):训练过程中使用的数据集。数据集中每个训练样本称为训练样本。从数据中学得模型的过程称为学习 (训练)。
- 测试集(testing data):学得模型后,使用其进行预测的过程称为测试,使用的数据集称为测试集,每个样本称为测试样本。
- 交叉验证集(cross validation data):用于衡量训练过程中模型的好坏。
偏差 方差
- 偏差:衡量算法的期望预测与真实值之间的偏差程度,反映了模型本身的拟合能力。
- 方差:衡量同等大小的训练集的变动导致模型学习的变化,刻画了数据扰动所导致的影响。
- 当模型越复杂时,拟合能力就越好,模型的偏差就越好。但此时如果换一组数据可能模型的变化就会很大,即模型方差变大,将这种现象称为过拟合,所以复杂的模型容易造成过拟合;当模型简单的时候,即使换一组数据,得出的学习器分类效果与之前分类器的效果也不会很大,即模型方差很小,但由于模型过于简单,导致偏差会很大,导致欠拟合。
过拟合 欠拟合
- 欠拟合:模型没有很好地捕捉到数据特征,不能够很好地拟合数据。也就是高偏差,低方差。
- 过拟合:通俗一点地来说过拟合就是模型把数据学习地太彻底,以至于把噪声数据的特征也学习到了,这样就会导致在后期测试的时候不能够很好地