前面的学习并没有考虑noise的情况,而在实际中,noise是不可避免的,用银行是否给一个顾客发信用卡为例子,noise可能是:
我们需要搞清楚noise会不会影响我们前面的理论。回忆一下,我们这一切的开始是从罐子里取弹珠,我们把弹珠比作X,我们求出了一个hypothesis h(x),和真正的f(x)或者y对比来涂色,最后通过抽样得出h(x)的错误率判断这个hypothesis的好坏。
上面我们假设了y=f(x),然而如果有noise,那么我们这些弹珠的标签y可能不是正确的,y!=f(x),这样我们就不能保证涂色是正确的。现在把罐子里弹珠颜色想象成是变来变去的,那么我们像之前那样抽样一把,把抽出来那一刻的颜色记录下来,得到的比例相信也会和罐子那一刻的比例相同,所以我们的vc bound还是可以在noise下适用的,只是X,y的都来自某个概率分布。
我们把P(y|x)称作目标分布,它表示在给定x时理想的y是多少,noise是多少
有时候false accept的错误和false reject的权重不一样
当我们用不同的权重时,并不会影响到我们之前的推导。假设false accept权重变为1000,相当于原始数据中y=-1的数据量都变为原来1000倍,这样我们如果原本在y=-1处有1权重的错误就会变为1000倍,两边Ein相等。
我们新的pocket算法就会包括以下两方面:
机器学习基石第八周笔记
最新推荐文章于 2022-03-14 20:28:38 发布