证明二类分类问题的泛化误差上界

最新推荐文章于 2021-08-20 15:11:22 发布

Mr_Napping

最新推荐文章于 2021-08-20 15:11:22 发布

阅读量2k

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41910742/article/details/82762643

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

泛化误差上界：

对二分类问题，当假设空间是有限个函数的集合F={f1,f2,f3,...,fn}时，对任意一个函数 $f\epsilon F$ ，至少以概率 $1-\delta$ ，以下不等式成立：

$R(f)\leq \hat{R}(f)+\varepsilon (d,N,\delta)$

其中， $\varepsilon (d,N,\delta )=\sqrt{1/2N(logd+log(1/\delta ))}$

不等式右端第一项为训练误差，训练误差越小，泛化误差就越小

第二项为N的单调递减函数，当N趋于无穷时其趋于0，且假设空间包含的函数越多，其值越大

以下为证明过程：

首先，因为证明过程要用到Hoeffding不等式，叙述如下：

设 $S_{n}=\sum_{i=1}^{n}X_{i}$ 是独立随机变量X1,X2,...,Xn之和， $X_{i}\epsilon [ai,bi]$ ，则对任意t>0，以下不等式成立：

$P(S_{n}-ES_{n}\geq t)\leq exp(\frac{-2t^{2}}{\sum_{i=1}^{n}(bi-ai)^{2} })$

$P(ES_{n}-S_{n}\geq t)\leq exp(\frac{-2t^{2}}{\sum_{i=1}^{n}(bi-ai)^{2} })$

现有，对任意 $f\epsilon F$ ， $\hat{R}(f)$ 是N个独立随机变量L(Y,f(X))的样本均值， R(f) 是随机变量L(Y,f(X))的期望值，损失函数取值于区间[0,1],即对所有i，[ai,bi]=[0,1]则有：

$S_{n}=\sum_{i=1}^{N}L(Y_{i},f(X_{i}))=NR(f)$

$E(S_{n})=E(\sum_{i=1}^{N}L(Y_{i},f(X_{i})))=\sum_{i=1}^{N}(E(L(Y_{i},f(X_{i})))=\sum_{i=1}^{N}\hat{R}(f)=N\hat{R}(f)$

因为 $P(NR(f)-N\hat{R}(f)\geq N\varepsilon )=P(R(f)-\hat{R}(f)\geq \varepsilon )$

因此，由Hoeffding不等式得：

$P(R(f)-\hat{R}(f)\geq \varepsilon ) \leq exp(-2(N\varepsilon )^{2}/N)=exp(-2N\varepsilon ^{2})$

因为，假设空间是一个有限集合，则有：

$P(R(f)-\hat{R}(f)\geq \varepsilon )\leq dexp(-2N \varepsilon ^{2})$

等价于：

$P(R(f)-\hat{R}(f)\leq \varepsilon )\geq 1-dexp(-2N \varepsilon ^{2})$

令 $dexp(-2N \varepsilon ^{2})= \delta$ ，则至少以概率 $1-\delta$ 有 $R(f)< \hat{R}(f)+ \varepsilon$ 成立

因此，训练误差小的模型，泛化误差也会小

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。