【机器学习】泛化误差上界

泛化能力:模型对未知数据的预测能力
泛化误差:模型是 f ^ \hat{f} f^,该模型对于未知数据预测的误差即为泛化误差:
R exp ⁡ ( f ^ ) = E P [ L ( Y , f ^ ( X ) ) ] = ∫ X × Y L ( y , f ^ ( x ) ) P ( x , y ) d x   d y \begin{aligned} R_{\exp }(\hat{f}) &=E_{P}[L(Y, \hat{f}(X))] \\ &=\int_{\mathcal{X} \times \mathcal{Y}} L(y, \hat{f}(x)) P(x, y) \mathrm{d} x \mathrm{~d} y \end{aligned} Rexp(f^)=EP[L(Y,f^(X))]=X×YL(y,f^(x))P(x,y)dx dy
实际上:泛化误差等价于期望风险: E P [ L ( Y , f ^ ( X ) ) ] E_{P}[L(Y, \hat{f}(X))] EP[L(Y,f^(X))]

其中:
期望风险 R ( f ) R(f) R(f)与经验风险 R ^ ( f ) \hat{R}(f) R^(f)的区别:期望风险的对象是未知的,待预测的数据;而经验风险指的是人为设计好的测试数据,数目为N,计算其平均损失误差。
R ( f ) = E [ L ( Y , f ( X ) ) ] R ^ ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \begin{array}{c} R(f)=E[L(Y, f(X))] \\\\ \hat{R}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) \end{array} R(f)=E[L(Y,f(X))]R^(f)=N1i=1NL(yi,f(xi))

泛化误差上界体现在泛化误差其满足以下一个不等式:
R ( f ) ⩽ R ^ ( f ) + ε ( d , N , δ ) ε ( d , N , δ ) = 1 2 N ( log ⁡ d + log ⁡ 1 δ ) \begin{array}{c} R(f) \leqslant \hat{R}(f)+\varepsilon(d, N, \delta) \\\\ \varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)} \end{array} R(f)R^(f)+ε(d,N,δ)ε(d,N,δ)=2N1(logd+logδ1)
其中 d d d表示为函数个数,假设空间是由有限个函数组成的,表示为: F = { f 1 , f 2 , ⋯   , f d } \mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\} F={f1,f2,,fd}
证明过程可以参考Hoeffding不等式

根据泛化误差上界可以得出几个比较重要的结论:
1、泛化误差=期望风险,泛化误差上限越小,说明期望风险越小,其预期值越加靠近真实值,体现其泛化能力越强。
2、当样本容量N增大时,泛化误差上界趋向于0,泛化能力越好。
3、当假设空间容量(模型的复杂性)越大,模型越难学, d d d越大,泛化误差上界越大,泛化能力越差。

参考:李航 统计学习方法第二版

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值