Training error & Generalization error
Training error 是说对于一个假设
h
,在
Generalization error 是指对于一个假设 h ,对于一个新样本,分类错误的概率:
当样本数量 m 足够大的时候,我们可以用前者来拟合后者(这一点,可以直观理解,也可以借助 Hoeffding Inequality 和union bound 来证明,后面会说明)
bias 和 variance
Generalization error可以用如下的式子表出(换种表示):
以回归模型为例,假设我们的一个预测模型,得出样本数据的期望为 h¯(x)
bias
bias 是模型过于简单的时候,欠拟合, 模型表现出来的误差:
为了计算方便(去掉绝对值),我们在计算时用 bias2(x)
variance
是指模型过于复杂时,过拟合表现出的误差;表现出来的一些特性仅仅适用于训练集,而一旦应用于其他数据集(测试集)就会出现较大误差
比如,我们用原来的训练集
D
得到的期望是
ϵ
ϵ 被称为误差,是一切模型Generalization error 的下界,刻画了问题本身的难度
Generalization error 与 bias, variance的关系可以用下图表示:
ERM(empirical risk minimization)
ERM(empirical risk minimization) 本质就是最小化经验误差
显式表示为:
经验误差为:
也就是之前说的training error.
算法的目的就是求得:
模型复杂度的影响:
我们先假定问题是PAC(probably approximately correct) 的(下一篇我会展开说明PAC,以及为什么得到下面那个式子),也就是说,我们可以通过优化训练误差来近似估计泛化误差,对于训练过程中,训练误差最小的
h^
, 有:
其中
H
是有限个假设函数
h
的集合,
我们可以近似理解为:
k
越大,模型越复杂,
和上图类似,具体的影响如下图的曲线所表示。