【机器学习笔记】权衡 bias 和 variance

最新推荐文章于 2024-03-06 02:25:04 发布

Preke

最新推荐文章于 2024-03-06 02:25:04 发布

阅读量712

点赞数 1

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013398398/article/details/78261152

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

Training error & Generalization error

Training error 是说对于一个假设 $h$ ,在 $m$ 个样本中， $h$ 分类错误的个数：

ϵ^(h)=1m∑i=1m1{h(x(i))≠y(i)}

$\hat\epsilon(h)=\frac{1}{m}\sum_{i=1}^m1\{h(x^{(i)})\ne y^{(i)}\}$

Generalization error 是指对于一个假设 $h$ ,对于一个新样本，分类错误的概率：

ϵ (h) = P (x, y) \sim D (h (x) \neq y)

$\epsilon(h)=P_{(x,y)\sim\mathcal{D}}(h(x)\ne y)$

当样本数量 $m$ 足够大的时候，我们可以用前者来拟合后者(这一点，可以直观理解，也可以借助 Hoeffding Inequality 和union bound 来证明，后面会说明）

bias 和 variance

Generalization error可以用如下的式子表出(换种表示）：

E (h) = b i a s 2 (x) + v a r (x) + ϵ 2

$E(h) = bias^2(x)+var(x)+\epsilon^2$

以回归模型为例，假设我们的一个预测模型，得出样本数据的期望为 $\bar h(x)$

bias

bias 是模型过于简单的时候，欠拟合, 模型表现出来的误差：

b i a s (x) = | h ¯ (x) - y |

$bias(x) = |\bar h(x)-y|$
为了计算方便（去掉绝对值），我们在计算时用

bias2(x) $bias^2(x)$

variance

是指模型过于复杂时，过拟合表现出的误差；表现出来的一些特性仅仅适用于训练集，而一旦应用于其他数据集（测试集）就会出现较大误差
比如，我们用原来的训练集 $D$ 得到的期望是 $\bar h(x；D)$ ，假设应用到另一个，比如测试集 $T$ 上，方差就可以这样计算：

v a r (x) = E [(h (x; T) - h ¯ (x; D)) 2]

$var(x) = E[(h(x;T)-\bar h(x;D))^2]$

$\epsilon$

$\epsilon$ 被称为误差，是一切模型Generalization error 的下界，刻画了问题本身的难度

Generalization error 与 bias, variance的关系可以用下图表示：

ERM(empirical risk minimization)

ERM(empirical risk minimization) 本质就是最小化经验误差

显式表示为：

经验误差为：

ϵ^(h)=1m∑i=1m1{hθ(x(i))≠y(i)}

$\hat\epsilon(h)=\frac{1}{m}\sum_{i=1}^m1\{h_\theta(x^{(i)})\ne y^{(i)}\}$

也就是之前说的training error.
算法的目的就是求得：

θ^= a r g min θ ϵ^(h θ)

$\hat\theta=arg\min_\theta\hat\epsilon(h_\theta)$

模型复杂度的影响：

我们先假定问题是PAC(probably approximately correct) 的（下一篇我会展开说明PAC，以及为什么得到下面那个式子），也就是说，我们可以通过优化训练误差来近似估计泛化误差，对于训练过程中，训练误差最小的 $\hat h$ , 有：

ϵ (h^) \leq (min h \in H ϵ (h)) + 2 1 2 m l o g 2 k δ - - - - - - - - - \sqrt

$\epsilon(\hat h) \le \left(\min_{h \in \mathcal{H}}\epsilon(h)\right)+ 2\sqrt{\frac{1}{2m}log\frac{2k}{\delta}}$

其中 $\mathcal{H}$ 是有限个假设函数 $h$ 的集合， $|\mathcal{H}| =k$ , $m$ 是训练集中样本的数量， $\delta$ 是犯错的概率。

我们可以近似理解为： $k$ 越大，模型越复杂， $\left(\min_{h \in \mathcal{H}}\epsilon(h)\right)$ 会更小或者不变，因为可选择的 $h$ 增多，有可能得到更好的 $h$ ; 但是 $k$ 增大的同时， $2\sqrt{\frac{1}{2m}log\frac{2k}{\delta}}$ 也增大了，误差的上限也就增大。所以也就是从数学的角度解释了我们为什么不能盲目让我们的模型变得更复杂。

和上图类似，具体的影响如下图的曲线所表示。
image_1bs74qgcns661fivb25njkmg59.png-80.2kB

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。