经验风险最小化这节课的内容全是算法,最终推导出了一个可供我们定性分析模型复杂度和所需最少训练样本数的关系的结论。
首先定义
ϵ^(h)
定义为m个样本的平均误差,又叫训练误差,即
ϵ^(hθ)=1m∑i=1kI{hθ(xi)≠yi}
定义
ϵ(h)
为某一个模型分类误差,又叫泛化误差,即
ϵ(h)=Px,y−D(h(x)≠y)
定义
h^
为训练误差最小的模型
定义
θ^
为训练误差最小的模型的参数
==============================hoeffding不等式======================
hoeffding不等式: 令
Z1,Z2,...,Zm
为 m 个独立同分布的服从伯努利分布的变量,且
P(Zi=1)=ϕ,P(Zi=0)=1−ϕ
则有
此不等式有一个直观的理解:如果把 ϕ^ 的分布曲线画在二维坐标系中,会得到一个钟形曲线,类似于高斯分布的曲线,其中期望值是 ϕ ,而 ϕ^ 是实际值。那么 P(|ϕ^−ϕ|>γ) 就表示经过m次实验后得到的 ϕ^ ,落在曲线中距离期望值 ϕ ——– γ 以外的地方的几率。hoeffding不等式告诉我们这个几率会小于 2exp(−2γ2m) 。
================================推导一致收敛定理===================================
定义模型集合
H={h1,h2,⋯hk}
,不同的模型参数
θ
对应不同的模型,也就是不同的
k
值,K是难以估计的很大的值。
显然,对于任意模型
该公式说明,只要样本数量m最够多,平均误差 ϵ^ 是一个很小的误差。
下面继续推导。
构造一个式子:
P(∃h∈H,|ϵ(hi)−ϵ^(hi)|>γ)
。该式子的意思是在K个模型:
h1,h1,⋯,hk
,中至少存在一个满足上式条件,即
P(|ϵ(h1)−ϵ^(h1)|>γ⋃|ϵ(h2)−ϵ^(h2)|>γ⋃⋯⋃|ϵ(hk)−ϵ^(hk)|>γ)
根据联合界定理,上式
≤∑i=1kP(|ϵ^(hi)−ϵ(hi)|>γ)
上面的推导得到的结果,对于任意模型
hj
都成立,因此
∑i=1kP(|ϵ^(hi)−ϵ(hi)|>γ)<∑i=1k2exp(−2γ2m)
即
用1减去上式两边,即对上式两边的事件取1的补集,得到:
该定理是一致收敛定理,该定理是说至少有 1−2k exp(−2γ2m) 的几率,使得泛化误差和训练误差的距离在 γ 范围内。
===============================继续推导推论====================================
下面继续推导推论
令
σ=2k exp(−2γ2m)
固定
γ和σ
,可以得到
m≥12γ2log2kσ
即m最小要达到多少,才能保证有
1−σ
的几率,使得泛化误差和训练误差的距离在
γ
范围内。
可以看到k在log符号内,log函数的增长是很慢的。因此,m的值对k值增长的不敏感的。
固定m和 σ ,可以得到 γ=12mlog2kσ−−−−−−−√
========================推导推论========================================
至少有
1−σ
的几率,使得:
ϵ(h^)≤ϵ^(h^)+γ
,对于训练的出的最优模型,显然泛化误差比训练误差大,按之前的定义,至多大
γ
定义
h∗
为泛化误差最小的模型
ϵ^(h^)≤ϵ^(h∗)
,这一步是显然的
ϵ^(h∗)≤ϵ(h∗)+γ
,对于泛化最优模型,显然泛化误差比训练误差小,按之前的定义,至多小
γ
因此有至少有
1−σ
的几率,使得:
上式说明,在训练集中训练出的最好的模型,与对应的测试集的最好的模型的误差差距,最大不超过
2γ
。
该定理也反映了方差和偏差之间的关系。当k变大,意味着模型的复杂度增加,此时
2γ
会增大,使得泛化误差增大,但另一方面,模型的复杂度增大,会使得
ϵ(h∗)
有更大的选择空间,使得
ϵ(h∗)
更小。因此第一项对应着偏差,而第二项对应着方差。两者是此消彼长的关系。