误差：Bias 和Variance

最新推荐文章于 2023-07-04 11:11:50 发布

weixin_42144829

最新推荐文章于 2023-07-04 11:11:50 发布

阅读量150

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_42144829/article/details/90050831

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

诊断error来源

在这里插入图片描述

两者之间的误差来于Bias和Variance.

Bias的计算
在这里插入图片描述
Variance的计算

举例子：打靶！

Model的复杂度对应的图像

为什么复杂的Model散布会比较开？因为简单的Model受data的影响小
举例：f(x) = c

在这里插入图片描述

Bias
假设出f（heart）

在这里插入图片描述

function space!

在这里插入图片描述

误差分析
误差来于Bias，应该怎么呢？重新设计Model,增加数据集没有用，因为function set 本来就不好!
- 考虑其他特征
- 考虑更复杂的Model

在这里插入图片描述

如果误差来自于variance呢?
**more data:如果是variance大的话，那你应该怎么办呢？一个方法就是增加你的data，那么看刚才的例子，如果是五次式，找100个f^,如果每次只抓10只宝可梦的话，那找出来的式子是这个样子，找出来的100个f的散布是这个样子。但是每次抓100个宝可梦的话，100个f他们就会非常集中，都集中在这个地方。所以其实，增加data是一个很有效控制variance的方法，假设你觉得你的variance太大的话，这个时候你要做的事情，collect data几乎是一个像是万灵丹这样子的东西。他不会伤害你的bias,但是他有可能造成你的问题，就是在实际上你没有办法collect更多的data。collect data很麻烦，不见得能够collect更多的data，不止在学校实验室没有办法。你可能说，在业界来说，你可以collect多少data。其实，你也不见得可以。比如说，有人想要在业界做些AI的东西，跟老板说我要collect一万比label data,就被reject。老板会说，机器会自己学习，你不需要label data，机器会自己学习嘛，你为什么会要label data.所以在业界你也不是想要collect data都可以，尤其是你的高层不知道机器学习是什么的时候，就会很卡。有时候你根本就没有办法collect data，不见得能够这么做。如果你不能这么做，其实是有一招啊，这一招就是产生假的training data,根据你对这个问题的理解，自己去制造更多data，是有这一招的。比如，在做手写数字辨识的时候，因为每个人手写的角度不一样，所以把所有的training data左转15度，右转15度，这样。做图像识别，只有一个从左边开过来的火车，没有一个从右边开过来的火车。怎么办？把图片反转，就有从右边开过来的火车了，对不对。可以把你的每张图片都左右颠倒，你就多一倍的data出来。或者在语音辨识的时候，有男声说的你好，没有女声说的你好。那你就把那个男声的声音用变声器给转一下，男声声音变女声声音，女声声音变男声声音，这样data就多出来。或者我只有录音室录的声音，可是我要在公车上用的，那怎么办，你就去公车上面录一些噪音，然后加到你在录音室录的声音里面，你马上就有公车上面的噪声了。
所以，你有各种方法可以用了。比如，还有人说，我今天要做language understanding 的task，老板只给你英文的data，因为他自己会学。那怎么办呢，你就可以做translation，把英文翻译成中文
Regularization:要求曲线平滑可能会伤害bias,只包含平滑的曲线，而没有包含目标function-f(heart).

在这里插入图片描述

要怎么做呢？

weixin_42144829

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
误差：Bias 和Variance

诊断error来源两者之间的误差来于Bias和Variance.Bias的计算Variance的计算举例子：打靶！Model的复杂度对应的图像为什么复杂的Model散布会比较开？因为简单的Model受data的影响小举例：f(x) = cBias假设出f（heart）function space!误差分析误差来于Bias，应该怎么呢？...
复制链接

扫一扫