偏差与方差权衡
当模型对数据的拟合程度不够时,预测值与真实值的误差较大,此时偏差很大,当模型对数据的拟合得很好时,预测值与真实值的误差较小,但此时方差很大。
训练误差与一般误差
定义训练误差(经验风险ERM):
ξ^(hθ)=1m∑iI(hθ(xi)≠yi)
θ^=argminθξ^(hθ)) ,这个求参数 θ 估计值的过程我们称为经验风险最小化定义一般误差
ξ(hθ)=p(x,y)∈D(h(x)≠y) ,其中 p(x,y)∈D 表示服从 D 分布
联合界定理
假设
A1,A2,⋯,Ak 是随机事件(不一定独立),那么以下等式成立:
p(A1∪A2∪⋯∪Ak)≤p(A1+A2+⋯+Ak)hoeffding 不等式
假设 z1,z2⋯,zm 是独立同分布的伯努利分布,即 p(zi=1)=ϕ
令 ϕ^=1m∑izi ,给定 Υ , hoeffding 不等式如下:
p(∣ϕ^−ϕ∣>Υ)≤2exp(−2Υ2m)
令假设类 H={h1,h2⋯,hk} ,其中 hi 是输入映射到输出的函数,不含参数, k 是假设空间的大小,即假设函数的个数
h^=argminhi∈Hξ^(hi)
选定 hj∈H ,定义:
zi=1mI(hj(xi)≠yi) ,也就是 zi 是独立同分布的伯努利分布,可以得到:
p(zi=1)=ξ(hj) , ξ^(hj)=1m∑izi=1m∑mi=1I(hj(xi)≠yi)
我们需要证明下面两个猜想:
1. 训练误差是一般误差的很好近似 ①
2. 一般误差存在上界 ξ(h^) ②证明①猜想(给定 m,Υ ,求概率):
- p(∣ξ(hj)−ξ^(hj)∣>Υ)≤2exp(−2Υ2m)
假设随机事件 Aj 定义为: ∣ξ(hj)−ξ^(hj)∣>Υ
p(Aj)≤2exp(−2Υ2m)
p(∃hj∈H,∣ξ(hj)−ξ^(hj)∣>Υ)=p(A1∪A2⋯∪Ak)
≤∑ip(Aj)
≤∑i2exp(−2Υ2m)
=2kexp(−2Υ2m)
p(∄hj∈H,∣ξ(hj)−ξ^(hj)∣>Υ)
=p(∀hj∈H,∣ξ(hj)−ξ^(hj)∣≤Υ)≥1−2kexp(−2Υ2m)- 给定 Υ,σ ,求样本集合 m ,其中
σ=2kexp(−2Υ2m)
那么当 m 满足:m≥12Υ2log2kσ ,可以得到:
p(∀hj∈H,∣ξ(hj)−ξ^(hj)∣≤Υ)≥1−σ- 给定 m,σ ,求 Υ
那么当 Υ=12mlog2kσ−−−−−−−−√ ,可以得到:
p(∀hj∈H,∣ξ(hj)−ξ^(hj)∣≤Υ)≥1−σ证明猜想②
h^=argminh∈Hξ^(h) , h∗=argminh∈Hξ(h)
ξ(h^)≤ξ^(h^)+Υ≤ξ^(h∗)+Υ≤ξ(h∗)+Υ+Υ=ξ(h∗)+2Υ
p(ξ(h^)≤minh∈Hξ(h)+212mlog2kσ−−−−−−−−√)≥1−σ ,当 Υ=12mlog2kσ−−−−−−−−√ 上式成立
吴恩达机器学习之经验风险最小化
最新推荐文章于 2024-05-06 23:59:04 发布