欠拟合/过拟合在这里叫做偏差/方差权衡
一般的,欠拟合指假设函数不能较好的拟合样本数据,比如实际样本数据是二次函数,用一次函数无论如何都不能很好地拟合。或者可以理解为,无论样本多么充足,函数依然不能学习到真实问题的结构。
过拟合指假设函数过于复杂,挖掘出了有限个样本数据中的某些奇怪的,实际并不存在特征联系,导致在样本集上误差很低,但泛化误差(非样本数据上)却很高。
定义偏差bias为即使训练集很大,泛化误差依然很大;其它泛化误差大的情形为方差variance
本文将在概率分析下探讨偏差与方差的量化,根源与正式定义,并分析样本误差与泛化误差的联系,这是机器学习理论的基石
通俗的讲,对于一切以最小化训练集误差为目标的学习算法来说,要想取得较好的效果,所需样本数量与参数个数为线性关系。