CS229 Lecture 9

CS229 Lecture 9


课程要点

学习理论


偏差与方差

在这里插入图片描述
就上面的三幅函数与数据的拟合图像来说,左图明数据呈现出二次函数形式而拟合函数却是一次函数 θ 0 + θ 1 x \theta_0+\theta_1x θ0+θ1x,未能拟合出数据的特征,因此会造成训练误差很大,进而泛化误差就更不可靠。处于欠拟合状态,有较高的偏差 (high bais)。而右图使用了 y = θ 0 + θ 1 x + ⋯ + θ 5 x y=\theta_0+\theta_1x+\cdots+\theta_5x y=θ0+θ1x++θ5x来拟合数据,可以看到数据点全都在函数图像上,但是单单看数据点呈现出的却是明显不是这么复杂的,因此右图明显过拟合了,会造成泛化无法较大。其实质为算法拟合输了数据中一些奇怪的特征,这些奇怪的特征仅仅存在于这批数据中,而非整个数据空间的分布状态。因此如果再抽取一批数据可能会拟合出于5次多项式不同的函数,泛化误差过大。被称为高方差(high variance)。而中间的图恰恰处于两者之间,可能会拥有更好的泛化能力。


对于线性分类问题,有算法:
h θ ( x ) = g ( θ T x ) h_{\theta}(x)=g(\theta^Tx) hθ(x)=g(θTx)

g ( z ) = 1 { x ≥ 0 } g(z)=1\{x\ge0\} g(z)=1{x0}     y ∈ { 0 , 1 } y\in\{0,1\} y{0,1}

S = { ( x ( i ) , y ( i ) ) } i = 1 m S=\{(x^{(i)},y^{(i)})\}_{i=1}^{m} S={(x(i),y(i))}i=1m     ( x ( i ) , y ( i ) ) ∼ I I D D (x^{(i)},y^{(i)})\stackrel{IID}\sim \mathcal{D} (x(i),y(i))IIDD

h θ ( x ) h_\theta(x) hθ(x)的训练误差被定义为:
ε ^ ( h ) = ∑ i = 1 m 1 { h θ ( x ( i ) ) ≠ y ( i ) } \hat\varepsilon(h) = \sum_{i=1}^{m} 1\{h_{\theta}(x^{(i)})\neq y^{(i)}\} ε^(h)=i=1m1{hθ(x(i))̸=y(i)}


ERM(empirical risk minimization)

对于函数的参数可行解的范围有很多,怎么选取一个最好的,其中一个方法就是最小化训练误差:

θ ^ = a r g    m i n ε ^ ( h θ ) \hat\theta=arg\,\,min\hat\varepsilon(h_{\theta}) θ^=argminε^(hθ)

这个过程就被称为经验风险最小化 ( E R M ) (ERM) (ERM),最后得出的结果 h ^ = h θ ^ \hat h =h_{\hat\theta} h^=hθ^,经验风险最小化是一种最基础的学习算法。其实我们学习了一组参数 θ \theta θ,其实也就相当于学习到了一个 h h h

现在定义假设类 (hypothesis class) H \mathcal{H} H为一系列分类器:
H = { h θ 0 : h θ ( x ) = 1 { θ T x ≥ 0 } , θ ∈ R n + 1 } \mathcal{H}=\{h_{\theta_0}:h_{\theta}(x)=1\{\theta^T x\ge0\},\theta\in R^{n+1}\} H={hθ0:hθ(x)=1{θTx0},θRn+1}

ERM被定义为:

h ^ = a r g    min ⁡ h ∈ H ε ^ ( h ) \hat h =arg\,\,\mathop {\min }\limits_{h\in\mathcal{H}}\hat\varepsilon(h) h^=arghHminε^(h)

h h h的泛化误差被定义为:

ε ( h ) = p ( x , y ) ∼ D ( h ( x ) ≠ y ) \varepsilon(h)=p(x,y)\sim\mathcal{D}(h(x)\neq y) ε(h)=p(x,y)D(h(x)̸=y)


为何最小化训练误差就可以保证泛化误差也很小,为了后续的证明引入两个定理:

定理一:Union Bound

A 1 , A 1 , ⋯ A k A_1,A_1,\cdots A_k A1,A1,Ak k k k个事件,这 k k k个事件并不一定是独立的,那么这 k k k个事件任何一个发生的概率为:

p ( A 1 U A 2 U ⋯ U A k ) ≤ p ( A 1 ) + p ( A 2 ) + ⋯ + p ( A k ) p(A_1UA_2U\cdots UA_k)\le p(A_1)+p(A_2)+\cdots+p(A_k) p(A1UA2UUAk)p(A1)+p(A2)++p(Ak)

定理二:Hoeffding inequality

假设 Z 1 , Z 2 , ⋯   , Z m Z_1,Z_2,\cdots,Z_m Z1,Z2,,Zm m m m个独立同分布 ( I I D ) (IID) (IID)的属于伯努利 ( B e r n o u l l i ) (Bernoulli) (Bernoulli)分布的随机变量,即 p ( Z i = 1 ) = ϕ p(Z_{i}=1)=\phi p(Zi=1)=ϕ, p ( Z i = 0 ) = 1 − ϕ p(Z_{i}=0)=1-\phi p(Zi=0)=1ϕ,定义 ϕ ^ = 1 m ∑ i = 1 m Z i \hat\phi=\frac{1}{m}\sum_{i=1}^{m}Z_{i} ϕ^=m1i=1mZi为随机变量的均值,存在 γ > 0 \gamma>0 γ>0,那么有:

p ( ∣ ϕ − ϕ ^ ∣ > γ ) ≤ 2 e x p ( − 2 γ 2 m ) p(|\phi-\hat\phi|>\gamma)\le 2exp(-2\gamma^{2}m) p(ϕϕ^>γ)2exp(2γ2m)

上面定理中使用均值来估计 ϕ \phi ϕ就类似于以频率估计概率。上面式子说明只要 m m m很大,那么 ϕ ^ \hat\phi ϕ^于真实的 ϕ \phi ϕ的具体就不会相差太远。

在这里插入图片描述

上图大概是 ϕ ^ \hat\phi ϕ^的分布(不要在意坐标轴),当增加训练样本时 ϕ ^ \hat\phi ϕ^的分布会由灰色变为黑色线。可以看到样本越多那么 ∣ ϕ − ϕ ^ ∣ ≤ γ |\phi-\hat\phi|\le\gamma ϕϕ^γ的概率越大。


有限 H \mathcal{H} H的情形:

假设 H = { h 1 , h 2 , ⋯   , h k } \mathcal{H}=\{h_1,h_2,\cdots,h_k\} H={h1,h2,,hk} k k k的假设, H \mathcal{H} H中的每个函数将 X \mathcal{X} X映射到 { 0 , 1 } 。 \{0,1\}。 {0,1}定义 h ^ = a r g    min ⁡ h i ∈ H ε ^ S ( h i ) \hat h=arg\,\,\mathop {\min }\limits_{h_i\in\mathcal{H}}\hat\varepsilon_{S}(h_i) h^=arghiHminε^S(hi),为了达到证明如果训练误差很小,那么泛化误差也很小的目的,我们的证明策略为:

  1. 证明 ε ^ ≈ ε \hat\varepsilon\approx\varepsilon ε^ε
  2. 证明 ε ^ \hat\varepsilon ε^有上界

对于一个固定 h j ∈ H h_j\in\mathcal{H} hjH,定义 Z j = 1 { h j ( x ( i ) ) ≠ y ( i ) } Z_j=1\{h_j(x^{(i)})\neq y^{(i)}\} Zj=1{hj(x(i))̸=y(i)}。其中样本 Z j Z_j Zj都是独立同分布的随机变量。对于一个样本 Z i Z_i Zi,那么 p ( Z i = 1 ) = ε ( h ) p(Z_i=1)=\varepsilon(h) p(Zi=1)=ε(h),训练误差可以被写为:

ε ^ ( h i ) = 1 m ∑ j = 1 m Z j \hat\varepsilon(h_i)=\frac{1}{m}\sum_{j=1}^{m}Z_j ε^(hi)=m1j=1mZj

根据前面提到的Hoeffding不等式有:

p ( ∣ ε ^ ( h i ) − ε ( h i ) ∣ > γ ) ≤ 2 e x p ( − 2 γ 2 m ) p(|\hat\varepsilon(h_i)-\varepsilon(h_i)|>\gamma)\le 2exp(-2\gamma^{2}m) p(ε^(hi)ε(hi)>γ)2exp(2γ2m)

通过上式可知,如果m很大,那么训练误差和泛化误差会很接近。当然这只是对 h i h_i hi的一个保证,我们要证明对于所有的 h ∈ H h\in\mathcal{H} hH都成立。

现在定义事件 A i A_i Ai ∣ ε ^ ( h i ) − ε ( h i ) ∣ > γ |\hat\varepsilon(h_i)-\varepsilon(h_i)|>\gamma ε^(hi)ε(hi)>γ。我们已经知道对于任意的一个事件 A i A_i Ai p ( A i ) ≤ 2 e x p ( − 2 γ 2 m ) p(A_i)\le 2exp(-2\gamma^2m) p(Ai)2exp(2γ2m),因此使用联合边界定理有:

p ( ∃ h j ∈ H    ∣ ε ^ ( h i ) − ε ( h i ) ∣ > γ ) = p ( A 1 U A 2 U ⋯ U A k ) ≤ p ( A 1 ) + p ( A 2 ) + ⋯ + p ( A k ) ≤ 2 k e x p ( − 2 γ 2 m ) p(\exists h_j\in\mathcal{H}\,\,|\hat\varepsilon(h_i)-\varepsilon(h_i)|>\gamma)=p(A_1UA_2U\cdots UA_k)\le p(A_1)+p(A_2)+\cdots+p(A_k)\le 2kexp(-2\gamma^2m) p(hjHε^(hi)ε(hi)>γ)=p(A1UA2UUAk)p(A1)+p(A2)++p(Ak)2kexp(2γ2m)

上式两侧用1减有:

p ( ¬ ∃ h j ∈ H    ∣ ε ^ ( h i ) − ε ( h i ) ∣ > γ ) = p ( ∀ h i ∈ H    ∣ ε ^ ( h i ) − ε ( h i ) ∣ ≤ γ ) ≥ 1 − 2 k e x p ( − 2 γ 2 m ) p(\lnot\exists h_j\in\mathcal{H}\,\,|\hat\varepsilon(h_i)-\varepsilon(h_i)|>\gamma)=p(\forall h_i\in\mathcal{H}\,\,|\hat\varepsilon(h_i)-\varepsilon(h_i)|\le \gamma)\ge1-2kexp(-2\gamma^2m) p(¬hjHε^(hi)ε(hi)>γ)=p(hiHε^(hi)ε(hi)γ)12kexp(2γ2m)

因此有 1 − 2 k e x p ( − 2 γ 2 m ) 1-2kexp(-2\gamma^2m) 12kexp(2γ2m)的概率说对于所有的 h ∈ H h\in\mathcal{H} hH, ε ^ ( h ) \hat\varepsilon(h) ε^(h) ε ( h ) \varepsilon(h) ε(h) γ \gamma γ领域内。因为这个边界对于所有的 h ∈ H h\in\mathcal{H} hH都成立,因此被称为一致性收敛

根据 m , γ , m,\gamma, m,γ,误差三者之间的关系,如果知道 γ , σ \gamma,\sigma γ,σ就可以求解需要的样本数 m m m。其中 σ = 2 k e x p ( − 2 γ 2 m ) \sigma=2kexp(-2\gamma^2m) σ=2kexp(2γ2m)。经推导有:

m ≥ 1 2 γ 2 l o g 2 k σ m\ge\frac{1}{2\gamma^2}log{\frac{2k}{\sigma}} m2γ21logσ2k

即只要 m m m超过 1 2 γ 2 l o g 2 k σ \frac{1}{2\gamma^2}log{\frac{2k}{\sigma}} 2γ21logσ2k对于所有的 h ∈ H h\in \mathcal{H} hH就有大于 1 − σ 1-\sigma 1σ的概率有 ∣ ε ^ ( h i ) − ε ( h i ) ∣ ≤ γ |\hat\varepsilon(h_i)-\varepsilon(h_i)|\le\gamma ε^(hi)ε(hi)γ

上面的 m m m被称为样本复杂度边界

同理可以根据 m , σ m,\sigma m,σ求解 γ \gamma γ。固定 m , σ m,\sigma m,σ 1 − σ 1-\sigma 1σ的概率下,可以得到 ∀ h ∈ H \forall h\in \mathcal{H} hH ∣ ε ^ ( h i ) − ε ( h i ) ∣ ≤ 1 2 m l o g 2 k σ |\hat\varepsilon(h_i)-\varepsilon(h_i)|\le\sqrt{\frac{1}{2m}log\frac{2k}{\sigma}} ε^(hi)ε(hi)2m1logσ2k


假设 ∀ h ∈ H    ∣ ε ^ ( h i ) − ε ( h i ) ∣ ≤ γ \forall h\in\mathcal{H}\,\,|\hat\varepsilon(h_i)-\varepsilon(h_i)|\le \gamma hHε^(hi)ε(hi)γ,令 h ^ = a r g    min ⁡ h ∈ H ε ^ ( h ) \hat h=arg\,\,\mathop {\min }\limits_{h\in\mathcal{H}}\hat\varepsilon(h) h^=arghHminε^(h),我们能得到什么?

定义 h ∗ = a r g    min ⁡ h ∈ H ε ( h ) h^{*}=arg\,\,\mathop {\min }\limits_{h\in\mathcal{H}}\varepsilon(h) h=arghHminε(h),是在 H \mathcal{H} H中最好的假设。有:

ε ( h ^ ) ≤ ε ^ ( h ^ ) + γ ≤ ε ^ ( h ∗ ) + γ ≤ ε ( h ∗ ) + 2 γ \varepsilon(\hat{h})\le\hat\varepsilon(\hat{h})+\gamma\le\hat\varepsilon(h^*)+\gamma\le\varepsilon(h^*)+2\gamma ε(h^)ε^(h^)+γε^(h)+γε(h)+2γ

不等式1,3成立在于运用了统一收敛,不等式2成立是因为 h ^ \hat h h^是训练误差最小的 h h h,而 h ∗ h* h是泛化误差最小的,因此对于任意的 h h h ε ^ ( h ^ ) ≤ ε ^ ( h ) \hat\varepsilon(\hat h)\le\hat\varepsilon(h) ε^(h^)ε^(h)


定理

∣ H ∣ = k |\mathcal{H}|=k H=k,将 m , σ m,\sigma m,σ固定至少有 1 − σ 1-\sigma 1σ的概率有:

ε ( h ^ ) ≤ ( min ⁡ h ∈ H ε ( h ) ) + 2 1 2 m l o g 2 k σ \varepsilon(\hat h)\le(\mathop {\min }\limits_{h\in\mathcal{H}}\varepsilon(h))+2\sqrt{\frac{1}{2m}log\frac{2k}{\sigma}} ε(h^)(hHminε(h))+22m1logσ2k

如果 H ⟶ H ′ \mathcal{H}\longrightarrow\mathcal{H^{'}} HH并且 H ′ ⊇ H \mathcal{H^{'}}\supseteq\mathcal{H} HH,由于函数变多了,那么上式第一项会减小,而第二项会变大。第一项对应于前面讲的偏差而后一项对应于前面说的方差。

在这里插入图片描述
上图横轴代表模型复杂度即(多项式的次数,或者说 H \mathcal{H} H的大小),纵轴代表误差,灰色的线表示训练误差,而黑色实线表示泛化误差,可以知道模型过于简单容易出现欠拟合,而模型过于复杂则会出现过拟合。

推论:

∣ H ∣ = k |\mathcal{H}|=k H=k,将 γ , σ \gamma,\sigma γ,σ固定,对于 ε ( h ^ ) ≤ min ⁡ h ∈ H ϵ ( h ) + 2 γ \varepsilon(\hat h)\le \mathop {\min }\limits_{h\in\mathcal{H}} \epsilon(h)+2\gamma ε(h^)hHminϵ(h)+2γ,在大于 1 − σ 1-\sigma 1σ的概率下满足:

m ≥ 1 2 γ 2 l o g 2 k σ = O ( 1 γ 2 l o g 2 k σ ) m\ge\frac{1}{2\gamma^2}log{\frac{2k}{\sigma}}=O(\frac{1}{\gamma^2}log\frac{2k}{\sigma}) m2γ21logσ2k=O(γ21logσ2k)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值