1.误差:是学习器的实际预测输出与样本的真实输出之间的差异。
比如一组数据 1,2,4,5.使用临界值3,将其分为两类。假设学习器的分类结果为 1和 2,4, 5 。但是实际的结果为1,2,和4,5,分错的2就是误差。
2.训练误差(经验误差):学习器在训练集上的误差。
训练得出的的误差,比如训练1000个样本得出的误差是0.01,训练500个样本得出的误差是0.02。一般在程序里当做训练终止的条件,例如do while(|R1-R2|<0.01){ do something }
3.泛化误差:学习器在新样本上的误差(指模型在任意一个测试数据样本上表现出的误差的期望)。
比如训练好模型之后测试的误差,比如训练一个y=kx+b的模型了,现在去测试100个样本,出现一个判断错误,那就是泛化误差为0.01.
4.过拟合:学习器把训练样本训练得太好,也就是训练误差极小,导致把训练样本自身的一些特点当作一般性质来处理和泛化能力降低。
5.欠拟合:训练样本的一般性质尚未学好,
6.独立同分布:指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布。