误差:Bias 和Variance

  • 诊断error来源

在这里插入图片描述

  • 两者之间的误差来于Bias和Variance.
    在这里插入图片描述

Bias的计算
在这里插入图片描述
Variance的计算

在这里插入图片描述
举例子:打靶!
在这里插入图片描述

Model的复杂度对应的图像

  • 为什么复杂的Model散布会比较开?因为简单的Model受data的影响小
  • 举例:f(x) = c

在这里插入图片描述

  • Bias
  • 假设出f(heart)

在这里插入图片描述
在这里插入图片描述
function space!

在这里插入图片描述

  • 误差分析
    在这里插入图片描述
  • 误差来于Bias,应该怎么呢?重新设计Model,增加数据集没有用,因为function set 本来就不好!
    • 考虑其他特征
    • 考虑更复杂的Model

在这里插入图片描述

  • 如果误差来自于variance呢?

  • **more data:如果是variance大的话,那你应该怎么办呢?一个方法就是增加你的data,那么看刚才的例子,如果是五次式,找100个f^,如果每次只抓10只宝可梦的话,那找出来的式子是这个样子,找出来的100个f的散布是这个样子。但是每次抓100个宝可梦的话,100个f他们就会非常集中,都集中在这个地方。所以其实,增加data是一个很有效控制variance的方法,假设你觉得你的variance太大的话,这个时候你要做的事情,collect data几乎是一个像是万灵丹这样子的东西。他不会伤害你的bias,但是他有可能造成你的问题,就是在实际上你没有办法collect更多的data。collect data很麻烦,不见得能够collect更多的data,不止在学校实验室没有办法。你可能说,在业界来说,你可以collect多少data。其实,你也不见得可以。比如说,有人想要在业界做些AI的东西,跟老板说我要collect一万比label data,就被reject。老板会说,机器会自己学习,你不需要label data,机器会自己学习嘛,你为什么会要label data.所以在业界你也不是想要collect data都可以,尤其是你的高层不知道机器学习是什么的时候,就会很卡。有时候你根本就没有办法collect data,不见得能够这么做。如果你不能这么做,其实是有一招啊,这一招就是产生假的training data,根据你对这个问题的理解,自己去制造更多data,是有这一招的。比如,在做手写数字辨识的时候,因为每个人手写的角度不一样,所以把所有的training data左转15度,右转15度,这样。做图像识别,只有一个从左边开过来的火车,没有一个从右边开过来的火车。怎么办?把图片反转,就有从右边开过来的火车了,对不对。可以把你的每张图片都左右颠倒,你就多一倍的data出来。或者在语音辨识的时候,有男声说的你好,没有女声说的你好。那你就把那个男声的声音用变声器给转一下,男声声音变女声声音,女声声音变男声声音,这样data就多出来。或者我只有录音室录的声音,可是我要在公车上用的,那怎么办,你就去公车上面录一些噪音,然后加到你在录音室录的声音里面,你马上就有公车上面的噪声了。
    所以,你有各种方法可以用了。比如,还有人说,我今天要做language understanding 的task,老板只给你英文的data,因为他自己会学。那怎么办呢,你就可以做translation,把英文翻译成中文

  • Regularization:要求曲线平滑可能会伤害bias,只包含平滑的曲线,而没有包含目标function-f(heart).
    在这里插入图片描述

在这里插入图片描述

要怎么做呢?

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值