吴恩达机器学习之经验风险最小化

最新推荐文章于 2024-07-31 22:20:25 发布

gdutLHD

最新推荐文章于 2024-07-31 22:20:25 发布

阅读量859

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/gdutLHD/article/details/78874961

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

偏差与方差权衡

当模型对数据的拟合程度不够时，预测值与真实值的误差较大，此时偏差很大，当模型对数据的拟合得很好时，预测值与真实值的误差较小，但此时方差很大。

训练误差与一般误差

定义训练误差（经验风险ERM）：
$\hat{\xi}(h_\theta)=\frac{1}{m}\sum_iI(h_\theta(x^i)\neq y^i)$
$\hat\theta=arg\min_\theta\hat{\xi}(h_\theta))$ ，这个求参数 $\theta$ 估计值的过程我们称为经验风险最小化

定义一般误差

$\xi(h_\theta)=p_{(x,y)\in D}(h(x)\neq y)$ ，其中 $p_{(x,y)\in D}$ 表示服从 $D$ 分布

联合界定理

假设 $A_1,A_2,\cdots,A_k$ 是随机事件（不一定独立），那么以下等式成立：
$p(A_1\cup A_2\cup\cdots\cup A_k)\leq p(A_1+ A_2+\cdots+ A_k)$

$hoeffding$ 不等式

假设 $z_1,z_2\cdots,z_m$ 是独立同分布的伯努利分布，即 $p(z_i=1)=\phi$
令 $\hat{\phi}=\frac{1}{m}\sum_iz_i$ ，给定 $\Upsilon$ ， $hoeffding$ 不等式如下：
$p(\mid\hat\phi-\phi\mid>\Upsilon)\leq 2\exp(-2\Upsilon^2m)$
令假设类 $H=\{h_1,h_2\cdots,h_k\}$ ，其中 $h_i$ 是输入映射到输出的函数，不含参数， $k$ 是假设空间的大小，即假设函数的个数
$\hat{h}=arg \min_{h_i\in H}\hat{\xi}(h_i)$
选定 $h_j\in H$ ，定义：
$z_i=\frac{1}{m}I(h_j(x^i)\neq y^i)$ ，也就是 $z_i$ 是独立同分布的伯努利分布，可以得到：
$p(z_i=1)=\xi(h_j)$ ， $\hat\xi(h_j)=\frac{1}{m}\sum_iz_i=\frac{1}{m}\sum_{i=1}^mI(h_j(x^i)\neq y^i)$
我们需要证明下面两个猜想：
1. 训练误差是一般误差的很好近似　　　　　①
2. 一般误差存在上界 $\xi(\hat h)$ 　　　　　　　　　②

证明①猜想（给定 $m,\Upsilon$ ，求概率）：

$p(\mid\xi(h_j)-\hat\xi(h_j)\mid>\Upsilon)\leq2\exp(-2\Upsilon^2m)$
假设随机事件 $A_j$ 定义为： $\mid\xi(h_j)-\hat\xi(h_j)\mid>\Upsilon$
$p(A_j)\leq2\exp(-2\Upsilon^2m)$
$p(\exists h_j\in H,\mid\xi(h_j)-\hat\xi(h_j)\mid>\Upsilon)=p(A_1\cup A_2\cdots\cup A_k)$
　　　　　　　　　　　　　　　　　　 $\leq\sum_ip(A_j)$
　　　　　　　　　　　　　　　　　　 $\leq\sum_i2\exp(-2\Upsilon^2m)$
　　　　　　　　　　　　　　　　　　 $＝2k\exp(-2\Upsilon^2m)$
$p(\not \exists h_j\in H,\mid\xi(h_j)-\hat\xi(h_j)\mid>\Upsilon)$
　　　　 $=p( \forall h_j\in H,\mid\xi(h_j)-\hat\xi(h_j)\mid\leq\Upsilon)\geq 1-2k\exp(-2\Upsilon^2m)$
给定 $\Upsilon,\sigma$ ，求样本集合 $m$ ，其中 $\sigma=2k\exp(-2\Upsilon^2m)$
那么当 $m$ 满足: $m\geq\frac{1}{2\Upsilon^2}\log\frac{2k}{\sigma}$ ，可以得到：
$p( \forall h_j\in H,\mid\xi(h_j)-\hat\xi(h_j)\mid\leq\Upsilon)\geq 1-\sigma$
给定 $m,\sigma$ ，求 $\Upsilon$
那么当 $\Upsilon=\sqrt{\frac{1}{2m}\log\frac{2k}{\sigma}}$ ，可以得到：
$p( \forall h_j\in H,\mid\xi(h_j)-\hat\xi(h_j)\mid\leq\Upsilon)\geq 1-\sigma$

证明猜想②

$\hat{h}=arg\min_{h\in H}\hat{\xi}(h)$ ， $h^*=arg\min_{h\in H}\xi(h)$
$\xi(\hat{h})\leq\hat\xi(\hat{h})+\Upsilon\leq\hat{\xi}(h^*)+\Upsilon\leq\xi(h^*)+\Upsilon+\Upsilon=\xi(h^*)+2\Upsilon$
$p(\xi(\hat{h})\leq\min_{h\in H}\xi(h)+2\sqrt{\frac{1}{2m}\log\frac{2k}{\sigma}}）\geq1-\sigma$ ，当 $\Upsilon=\sqrt{\frac{1}{2m}\log\frac{2k}{\sigma}}$ 上式成立

gdutLHD

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习之经验风险最小化

偏差与方差权衡当模型对数据的拟合程度不够时，预测值与真实值的误差较大，此时偏差很大，当模型对数据的拟合得很好时，预测值与真实值的误差较小，但此时方差很大。训练误差与一般误差定义训练误差（经验风险ERM）： ξ^(hθ)=1m∑iI(hθ(xi)≠yi)\hat{\xi}(h_\theta)=\frac{1}{m}\sum_iI(h_\theta(x^i)\n
复制链接

扫一扫