我们在学习模式识别的时候,总是会遇到一些专业词汇,而其中有的专业词汇叫人傻傻分不清。
今天我就来说说训练误差、测试误差、泛化误差到底是什么,区别所在。
对于分类学习算法,我们一般将样本集分为训练集和测试集,其中训练集用于算法模型的学习或训练,而测试集通常用于评估训练好的模型对于数据的预测性能评估。而这个先后顺序就是先将算法在训练集上训练得到一个模型,然后在测试集上评估性能。
这个时候我们通常要考虑评估的这个性能是否合理。由于测试学习算法是否成功在于算法对于训练中未见过的数据的预测执行能力,因此我们一般将分类模型的误差分为训练误差(Training Error)和泛化误差(Generalization Error)。那么这两个误差到底是什么呢?
训练误差是指模型在训练集上的错分样本比率,说白了就是在训练集上训练完毕后在训练集本身上进行预测得到了错分率
(同样的测试误差就是模型在测试集上的错分率)
泛化误差是指模型在未知记录上的期望误差,说白了就是在训练集上没见过的数据的错分样本比率。
因此在样本集划分时,如果得到的训练集与测试集的数据没有交集,此时测试误差基本等同于泛化误差。
因此以上就是三者的意义所在和区别所在!!