How can Machine Learn? - Noice and Error
这一节主要讨论存在噪音的情况下,上一节中讨论的VC Bound 还能否适用,我们能不能相信机器能学到东西。
1. Noise
1) Introduction of Noise
噪音数据指的是:在实际情况中,与所希望的值不一样的数据。
噪声有几种错误:
1. noise in y: mislabeled data;
2. noise in y: different labels for same x;
3. noise in x: error x.
4. …
造成噪声的原因也有很多种,比如:
1. 数据在测量时产生误差
2. 数据录入错误
3. 数据在处理过程中处理不当
4. …
2) The Influence of Noise
继续以之前抽球的例子来说明,在一个罐子中有很多小球,要么是绿色,要么是橙色,假设存在一个会不断变色的小球,颜色不停的快速变化着(即噪音),我们称之为概率性小球(Probabilitic Ball),其他的小球颜色都固定,我们称为确定性小球(Deterministic Ball)。那么确定性的小球满足公式(1)的概率,然后我们再假设这个概率性小球为+1的概率为0.7,那么满足下面公式(2)。
两个分布函数
ρ(x)
和
ρ(y|x)
,其中
ρ(x)
越大意味着
x
被选为中的概率越大,
所以我们的流程图更新为图一所示。
2. Error
这里主要介绍 Pointwise Error Measure的方法
1) Pointwise Error Measure
我们用每个点的误差衡量来衡量整体误差,用
err()
表示。
对应
Ein(g),Eout(g)
可以用下面公式(3)和(4)表示。
2) Two Important Pointwise Error Measures
我们用0/1错误来衡量分类问题,用平方错误来衡量回归问题。其数学表达式,如公式(5)(6)所示
3) Choice of Error Measures
对于二元分类问题错误的类型也分为两类,如图二所示。
在目标函数f为+1时,假设函数g却给出了-1,这种错误叫做错误的拒绝(false reject),另一种是在目标函数f为-1时,假设函数g却给出了+1,这种错误叫做错误的接受(false accept)。
然后在不同的应用场合下,如果我们要给错误加上权重,那么这个权重会不一样。比如说:
- 超市指纹识别的例子
如果在超市中通过指纹识别来进行打折活动,如果是vip用户,之前有指纹录入的话,就应该有优惠活动,否则没有。
如果发生false reject的情况,那么顾客可能会不高兴,这样就会损失了一部分未来的生意;而如果发生false accept的话,超市只不过损失了一点小钱。
所以对于超市的成本表如图三所示,false reject会牺牲成本比较大,而false accept牺牲的成本会较小。所以,我们应该尽量避免false reject的情形。
- CIA指纹识别的例子
如果美国中情局,用指纹识别来判断该人是否有权限进入系统查看重要资料。
那么,发生false accept的情况会导致很严重的后果,而false reject的话,就不会有太大的影响。
所以对于CIA的成本表如图四所示,应该尽量避免false accept的情形。
Summary
- 首先介绍了Noise,并且讨论了Noise对我们的VC Bound不会产生影响,即Noise不影响机器学习的可行性。
- 然后介绍了Error,然后讨论了0/1错误来衡量二元分类问题,以及用平方错误来衡量回归问题。
- 最后讨论了不同应用场景下的Error应该加上不同的权重,比如超市和CIA的指纹识别系统的侧重点不同。
Reference
[1]机器学习基石(台湾大学-林轩田)\8\8 - 1 - Noise and Probabilistic Target (17-01)
[2]机器学习基石(台湾大学-林轩田)\8\8 - 2 - Error Measure (15-10)
[3]机器学习基石(台湾大学-林轩田)\8\8 - 3 - Algorithmic Error Measure (13-46)