机器学习基石——Noise and Error

noise

对于真实场景而言,大规模数据集多少会有一些noise。

数据集中的noise来源:1)来源于x,采集特征时出现错误;2)来源于y,打标签时出错。

有noise情况与理想情况区别:原来对于某个x,y是确定值;当有了noise之后,对于某个x,y是一个概率分布 P ( y ∣ x ) P(y|x) P(yx)

有noise情况VC bound不等式是否依然成立:如果数据集标签按照 P ( y ∣ x ) P(y|x) P(yx)分布,且数据集是i.i.d.(独立同分布)的,那么之前证明机器可以学习的方法依然奏效——VC Dimension有限,样本足够情况下,仍可得到 E i n ≈ E o u t E_{in}\approx E_{out} EinEout
依然成立的原因是:原来的不等式中​​​​​​
在这里插入图片描述
有noise以后只是把 f ( x ) f(x) f(x)替换为 P ( y ∣ x ) P(y|x) P(yx) y n y_n yn替换为 P ( y ∣ x n ) P(y|x_n) P(yxn),推导过程完全不变,所以VC bound还是成立。

有noise情况 f ( x ) f(x) f(x) g ( x ) g(x) g(x)具体含义
在有noise情况下,当 h h h尽可能接近 f f f时, E i n E_{in} Ein是最小的,所以在这里 f f f仍然是机器学习的目标函数,称为ideal mini-target function,此时最终学习的 g g g仍然是在尽可能模仿 f f f

启发

  1. 在实际的机器学习问题中,P(y|x)是未知的。但是通过选用不同的err,可以隐含地决定ideal mini-target function,也就是我们的算法学习的目标函数。

  2. 在实际情况中,假如20%的标签是错误的,只有80%的标签是正确的,那么机器学习的正确率的上限就是80%。

error

错误度量方法:0/1 error,squared error(一般用于回归);当然后面随着不同的任务和模型特性还会诞生很多错误评估方法。
ps. 有noise情况下, P ( y ∣ x ) P(y|x) P(yx)和error联合在一起,才能决定ideal mini-target function—— f ( x ) f(x) f(x)

weighted error

不同的样本(x_n,y_n)有不同的重要性,犯错的代价是不一样,当样本比较重要时,可以增加其error的权重。
比如样本非常不均衡的时候,我们希望样本比较少的一类更受重视一点,所以可以增加这一类error权重。因为如果不受重视,那么极端情况下只要模型将所有样本都判为样本多的那一类,error值仍然可以下降很多,但这样就失去学习的意义了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值