【机器学习】泛化误差上界

最新推荐文章于 2024-08-02 17:15:32 发布

辰虫牙

最新推荐文章于 2024-08-02 17:15:32 发布

阅读量2k

点赞数 2

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_40622974/article/details/115036449

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

泛化能力：模型对未知数据的预测能力
泛化误差：模型是 $\hat{f}$ ，该模型对于未知数据预测的误差即为泛化误差：
$\begin{aligned} R_{\exp }(\hat{f}) &=E_{P}[L(Y, \hat{f}(X))] \\ &=\int_{\mathcal{X} \times \mathcal{Y}} L(y, \hat{f}(x)) P(x, y) \mathrm{d} x \mathrm{~d} y \end{aligned}$
实际上：泛化误差等价于期望风险： $E_{P}[L(Y, \hat{f}(X))]$

其中：
期望风险 $R (f)$ 与经验风险 $\hat{R}(f)$ 的区别：期望风险的对象是未知的，待预测的数据；而经验风险指的是人为设计好的测试数据，数目为N，计算其平均损失误差。
$\begin{array}{c} R(f)=E[L(Y, f(X))] \\\\ \hat{R}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) \end{array}$

泛化误差上界体现在泛化误差其满足以下一个不等式：
$\begin{array}{c} R(f) \leqslant \hat{R}(f)+\varepsilon(d, N, \delta) \\\\ \varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)} \end{array}$
其中 $d$ 表示为函数个数，假设空间是由有限个函数组成的，表示为： $\mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\}$
证明过程可以参考Hoeffding不等式。

根据泛化误差上界可以得出几个比较重要的结论：
1、泛化误差=期望风险，泛化误差上限越小，说明期望风险越小，其预期值越加靠近真实值，体现其泛化能力越强。
2、当样本容量N增大时，泛化误差上界趋向于0，泛化能力越好。
3、当假设空间容量（模型的复杂性）越大，模型越难学， $d$ 越大，泛化误差上界越大，泛化能力越差。

参考：李航统计学习方法第二版

辰虫牙

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】泛化误差上界

泛化能力：模型对未知数据的预测能力泛化误差：模型是f^\hat{f}f^，该模型对于未知数据预测的误差即为泛化误差：Rexp⁡(f^)=EP[L(Y,f^(X))]=∫X×YL(y,f^(x))P(x,y)dx dy\begin{aligned}R_{\exp }(\hat{f}) &=E_{P}[L(Y, \hat{f}(X))] \\&=\int_{\mathcal{X} \times \mathcal{Y}} L(y, \hat{f}(x)) P(x, y) \m
复制链接

扫一扫

专栏目录