基于least square的bias-variance分解十分常见
其中 y^ 为预测值, y 为真值,
对于分类问题,平方差误差并不常作为criterion,Ng给出了一个直观上的Bias-Variance分解,基于经验风险(Empirical Risk)的目标函数。首先严格探讨了方程集有限的情况,然后给出了方程集合无限的直观理解。
Empirical Risk Minimization (ERM)
给出定义:
存在某个备选方程集合
H={h1,h2,⋯,hk}
,其中每个
hi
都是从
Rn
到
{0,1}
的映射。
每一个方程的风险定义为
ϵ(h)=Ex,y1{(h(x)≠y}=P(x,y)∼D(h(x)≠y)
。
经验风险是风险基于训练集的估计,其定义为
经验风险最小化即求取 h^=argminh∈Hϵ^(h) 。
方程集有限的情况 |H|<∞
定义 h∗=argminh∈Hϵ(h) , ϵ(h∗) 取决于方程集与数据分布,不受训练集控制,视为bias。而 h^ 是训练得到的 h∗ 的近似, ϵ(h^) 与 ϵ(h∗) 之间的差异视为variance,是由训练集采样引入的。即对 ϵ(h^) 进行分解,得到 ϵ(h∗) 是bias,差异值视为variance。
1. ϵ^(h) VS ϵ(h)
假设 ϵ(h)=Ex,y1{(h(x)≠y}=P(x,y)∼D(h(x)≠y)=p , 则有 ϵ^ 与 ϵ 之间实际为采样误差。
定义
zi=1{h(xi)≠yi}
,则有
zi∼B(p)
,即符合概率为
p
的伯努利分布。而
基于Hoeffding不等式,我们有 P(|ϵ(h)−ϵ^(h)|>γ)≤2exp(−2γ2m) 。
2. ∀h ϵ^(h) VS ϵ(h)
3. ϵ^(h^) VS ϵ(h∗)
其中第一个和第三个不等式由 P(∀h∈H,|ϵ(h)−ϵ^(h)|≤γ)≥1−2kexp(−2γ2m) 引入,第二个不等式由 h^=argminh∈Hϵ^(h) 引入。第一个和第三个不等式同时成立的概率至少为 (1−2kexp(−2γ2m))2 ,即两者不相关。
值得注意的是这是一个比较宽泛的上限,给出的更多是直观的指导性意见。因为不等式推导过程中并没有使用
h∗=argminh∈Hϵ(h)
这个条件,所以对于任意
h
,均有
其中 γ 为 |ϵ(h^)−ϵ(h∗)|/2 ,即能够忍受的最大误差值的一半; k=|H| 即方程集大小; 1−δ 为置信率,即上诉不等式成立的概率。注意到通常情况下 γ 与 δ 的设定在同一个问题下保持稳定,所以采样数量是方程集大小的对数函数,随模型复杂度增长缓慢。
方程集无限的情况 |H|≥∞
Ng首先给出了一个直观上易于理解但是不严谨的证明:设模型参数个数为
d
,每个都是用
严格的证明是基于VC维的,结论是类似的:设
d
为
进而 m=O(d) ,在 δ 和 γ 固定的情况下。