统计学习方法笔记01_泛化误差上界

Hoeffding 不等式

第 2 版,
X 1 , X 2 , , ⋯   , X N X_1,X_2,,\cdots,X_N X1,X2,,,XN 是独立随机变量,且 X i ∈ [ a i , b i ] , i = 1 , 2 , ⋯   , N X_{i} \in [a_i,b_i],i=1,2,\cdots,N Xi[ai,bi],i=1,2,,N X ˉ \bar{X} Xˉ X 1 , X 2 , , ⋯   , X N X_1,X_2,,\cdots,X_N X1,X2,,,XN 的经验均值,即 X ˉ = 1 N ∑ i = 1 N X i \bar{X}=\frac{1}{N} \sum_{i=1}^N X_i Xˉ=N1i=1NXi,则对任意 t > 0 t>0 t>0,以下不等式成立:
P [ X ˉ − E ( X ˉ ) ≥ t ] ≤ exp ⁡ ( − 2 N 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ) P [ E ( X ˉ ) − X ˉ ≥ t ] ≤ exp ⁡ ( − 2 N 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ) P[\bar{X}-E(\bar{X}) \geq t] \leq \exp \left( -\frac{2N^2t^2}{\sum_{i=1}^N(b_i-a_i)^2} \right) \\ P[E(\bar{X})-\bar{X} \geq t] \leq \exp \left( -\frac{2N^2t^2}{\sum_{i=1}^N(b_i-a_i)^2} \right) P[XˉE(Xˉ)t]exp(i=1N(biai)22N2t2)P[E(Xˉ)Xˉt]exp(i=1N(biai)22N2t2)

第 1 版,
S n = ∑ i = 1 N X i S_n = \sum_{i=1}^NX_i Sn=i=1NXi 是独立随机变量 X 1 , X 2 , , ⋯   , X n X_1,X_2,,\cdots,X_n X1,X2,,,Xn 之和, X i ∈ [ a i , b i ] X_{i} \in [a_i,b_i] Xi[ai,bi],则对任意 t > 0 t>0 t>0,以下不等式成立:
P ( S n − E S n ≥ t ) ≤ exp ⁡ ( − 2 t 2 ∑ i = 1 n ( b i − a i ) 2 ) P ( E S n − S n ≥ t ) ≤ exp ⁡ ( − 2 t 2 ∑ i = 1 n ( b i − a i ) 2 ) P(S_n - ES_n \geq t) \leq \exp \left( -\frac{2t^2}{\sum_{i=1}^n(b_i-a_i)^2} \right) \\ P(ES_n - S_n \geq t) \leq \exp \left( -\frac{2t^2}{\sum_{i=1}^n(b_i-a_i)^2} \right) P(SnESnt)exp(i=1n(biai)22t2)P(ESnSnt)exp(i=1n(biai)22t2)

S n = ∑ i = 1 n X i S_n = \sum_{i=1}^nX_i Sn=i=1nXi E S n = E ( ∑ i = 1 n X i ) ES_n = E(\sum_{i=1}^nX_i) ESn=E(i=1nXi),考虑随机变量序列的均值 X ˉ n = S n n \bar{X}_n = \frac{S_n}{n} Xˉn=nSn 和随机变量序列均值的期望 E ( X ˉ n ) = E S n n E(\bar{X}_n) = \frac{ES_n}{n} E(Xˉn)=nESn,看随机变量序列的均值到均值的期望之间的距离 ≥ t \geq t t 的概率是被什么控制住,
P ( X ˉ n − E ( X ˉ n ) ≥ t ) = P ( S n − E S n ≥ n t ) ≤ exp ⁡ ( − 2 n 2 t 2 ∑ ( b i − a i ) 2 ) \begin{aligned} P(\bar{X}_n - E(\bar{X}_n) \geq t) &= P(S_n - ES_n \geq nt) \\ &\leq \exp\left( -\frac{2n^2t^2}{\sum(b_i-a_i)^2} \right) \end{aligned} P(XˉnE(Xˉn)t)=P(SnESnnt)exp((biai)22n2t2)

当随机变量序列的包含的随机变量个数 n 比较大的时候,分子是 n 2 n^2 n2 的阶,分母是 n n n 项求和,每一项可以看做是一个常数,所以是一个 n n n 的阶,整个式子就是 e − n e^{-n} en 阶,当 n → ∞ n \rightarrow \infty n,整个式子 → 0 \rightarrow 0 0,即当样本量很大的时候,随机变量序列的均值到均值的期望之间的距离 ≥ t \geq t t 的概率趋于 0。

期望损失与经验损失

损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

损失函数(loss function)或代价函数(cost function),度量预测错误的程度,是 f ( X ) f(X) f(X) Y Y Y 的非负实值函数,记作 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X))

模型的输入、输出 ( X , Y ) (X,Y) (X,Y) 是随机变量,遵循联合分布 P ( X , Y ) P(X,Y) P(X,Y),所以损失函数的期望是
R e x p ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x d y \begin{aligned} R_{exp}(f) &= E_P[L(Y,f(X))] \\ &= \int_\mathcal{X \times Y}L(y,f(x))P(x,y)\mathrm{d}x\mathrm{d}y \end{aligned} Rexp(f)=EP[L(Y,f(X))]=X×YL(y,f(x))P(x,y)dxdy

这是理论上模型 f ( X ) f(X) f(X) 关于联合分布 P ( X , Y ) P(X,Y) P(X,Y) 的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)。
学习的目标就是选择期望风险最小的模型。由于联合分布 P ( X , Y ) P(X,Y) P(X,Y) 是未知的, R e x p R_{exp} Rexp 不能直接计算。

给定一个训练数据集
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T = \{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\} T={(x1,y1),(x2,y2),,(xN,yN)}

模型 f ( X ) f(X) f(X) 关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss),记作 R e m p R_{emp} Remp
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f) = \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i)) Remp(f)=N1i=1NL(yi,f(xi))

期望风险 R e x p R_{exp} Rexp 是模型关于联合分布的期望损失,经验风险 R e m p R_{emp} Remp 是模型关于训练样本集的平均损失,根据大数定律,当样本容量 N N N 趋于无穷时,经验风险 R e m p R_{emp} Remp 趋于期望风险 R e x p R_{exp} Rexp

泛化误差上界证明1

考虑二类分类问题的泛化误差上界,已知训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T = \{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\} T={(x1,y1),(x2,y2),,(xN,yN)} N N N 是样本容量, T T T 是从联合概率分布 P ( X , Y ) P(X,Y) P(X,Y) 独立同分布产生的, X ∈ R n X \in \mathbf{R}^n XRn Y ∈ { − 1 , + 1 } Y \in \{-1,+1\} Y{1,+1}。假设空间是函数的有限集合 F = { f 1 , f 2 , ⋯   , f d } \mathcal{F} = \{f_1,f_2,\cdots,f_d\} F={f1,f2,,fd} d d d 是函数个数。设 f f f 是从 F \mathcal{F} F 中选取的函数,损失是 0 − 1 0-1 01 损失。关于 f f f 的期望风险和经验风险分别是
R ( f ) = E [ L ( Y , f ( X ) ) ] R ^ ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R(f) = E[L(Y,f(X))] \\ \hat{R}(f) = \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i)) R(f)=E[L(Y,f(X))]R^(f)=N1i=1NL(yi,f(xi))

泛化误差上界的含义,备选模型 f,在训练集上的经验风险,加上一个小的 ε \varepsilon ε 项,可以控制住它在测试集上的期望风险。

从假设空间中任选一个备选模型 f,它在训练集上的经验风险,就是一个随机变量序列的均值 R ^ ( f ) \hat{R}(f) R^(f),这个随机变量序列均值的期望 R ( f ) R(f) R(f) 就是期望风险,它代表着这个模型在测试集上的表现,代入 Hoeffding 不等式,考虑一个备选模型,
P ( R ( f ) − R ^ ( f ) ≥ ε ) ≤ exp ⁡ ( − − 2 N 2 ε 2 N ) = exp ⁡ ( − 2 N ϵ 2 ) P(R(f)-\hat{R}(f) \geq \varepsilon) \leq \exp(-\frac{-2N^2\varepsilon^2}{N}) = \exp(-2N\epsilon^2 ) P(R(f)R^(f)ε)exp(N2N2ε2)=exp(2Nϵ2)

d 个备选模型,它在训练集上的经验风险和期望风险上的差值都不大,考虑这个事件的对立事件,存在一个备选模型,它使得期望风险与经验风险的距离比较大,
P ( ∃ f ∈ F : R ( f ) − R ^ ( f ) ≥ ε ) = P ( R ( f 1 ) − R ^ ( f 1 ) ≥ ε ⋃ R ( f 2 ) − R ^ ( f 2 ) ≥ ε ⋃ ⋯ ⋃ R ( f d ) − R ^ ( f d ) ≥ ε ) ≤ ∑ f ∈ F P ( R ( f ) − R ^ ( f ) ≥ ε ) ≤ d exp ⁡ ( − 2 N ε 2 ) \begin{aligned} P(\exists f \in \mathcal{F}:R(f)-\hat{R}(f) \geq \varepsilon) &= P(R(f_1)-\hat{R}(f_1) \geq \varepsilon \bigcup R(f_2)-\hat{R}(f_2) \geq \varepsilon \bigcup \cdots \bigcup R(f_d)-\hat{R}(f_d) \geq \varepsilon) \\ & \leq \sum_{f \in \mathcal{F}}P(R(f)-\hat{R}(f) \geq \varepsilon) \\ & \leq d\exp(-2N\varepsilon^2) \end{aligned} P(fF:R(f)R^(f)ε)=P(R(f1)R^(f1)εR(f2)R^(f2)εR(fd)R^(fd)ε)fFP(R(f)R^(f)ε)dexp(2Nε2)

对立事件,
P ( ∀ f ∈ F : R ( f ) − R ^ ( f ) < ε ) ≥ 1 − d exp ⁡ ( − 2 N ϵ 2 ) P(\forall f \in \mathcal{F}:R(f)-\hat{R}(f) \lt \varepsilon) \geq 1-d\exp(-2N\epsilon^2 ) P(fF:R(f)R^(f)<ε)1dexp(2Nϵ2)


δ = d exp ⁡ ( − 2 N ε 2 ) \delta=d\exp(-2N\varepsilon^2) δ=dexp(2Nε2)


P ( R ( f ) < R ^ ( f ) + ε ) ≥ 1 − δ P(R(f) \lt \hat{R}(f)+\varepsilon) \geq 1-\delta P(R(f)<R^(f)+ε)1δ

即至少以概率 1 − δ 1-\delta 1δ R ( f ) < R ^ ( f ) + ε R(f) \lt \hat{R}(f)+\varepsilon R(f)<R^(f)+ε

ε \varepsilon ε的计算,
δ = d exp ⁡ ( − 2 N ϵ 2 ) δ d = exp ⁡ ( − 2 N ϵ 2 ) d δ = exp ⁡ ( 2 N ϵ 2 ) log ⁡ d δ = log ⁡ exp ⁡ ( 2 N ϵ 2 ) 1 2 N ( log ⁡ d + log ⁡ 1 δ ) = ε 2 log ⁡ e 1 2 N ( log ⁡ d + log ⁡ 1 δ ) = ε \begin{aligned} \delta = d\exp(-2N\epsilon^2) \\ \frac{\delta}{d}=\exp(-2N\epsilon^2) \\ \frac{d}{\delta}=\exp(2N\epsilon^2) \\ \log\frac{d}{\delta}=\log\exp(2N\epsilon^2) \\ \frac{1}{2N}(\log d + \log\frac{1}{\delta})=\varepsilon^2\log e \\ \sqrt{\frac{1}{2N}(\log d + \log\frac{1}{\delta})}=\varepsilon \end{aligned} δ=dexp(2Nϵ2)dδ=exp(2Nϵ2)δd=exp(2Nϵ2)logδd=logexp(2Nϵ2)2N1(logd+logδ1)=ε2loge2N1(logd+logδ1) =ε

微信公众号「padluo」,分享数据科学家的自我修养,既然遇见,不如一起成长。关注【数据分析】公众号,后台回复【文章】,获得整理好的【数据分析】文章全集。

数据分析二维码.gif

参考文档


  1. 霍夫丁不等式和泛化误差上界 ↩︎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值