机器学习3

机器学习第四章走起~

1.机器学习是否可行,从前面讲述,好像我们学习后的结果,只能保证在已经给出的资料中,我们的g和f是一样的,那么对于这些资料以外的新的资料呢?我们能保证是对的嘛?如果我是坏心的老师,总可以否定你的预测,似乎机器学习陷入了危机=

对于一个大罐子,有绿色和橙色的球,我们想要知道各种颜色所占的比例。

我们的方法是取10个,称作sample

罐子橙色比例 是u ,而samle中橙色比例是v,那么自然由概率论知识我们知道u和v是有一定关系的

在大部分的时候,u和v是接近的,但是也有比较小的概率误差很大

用数学解释

P[|v-u|> ∈] ≤ 2exp(-2*∈*∈*N) 霍夫丁的不等式N是样本的大小,∈是你能容忍的误差大小。

所以如果我们N足够大,或者我们容忍足够大,那么我们可以看做u和v是大概可能相等的

下面对应到机器学习

对于罐子里面的每个弹珠,我们都把它假设成为一个输入

对于f(x) ≠ h(x),那么这个弹珠是橙色,如果f(x) = h(x),那么这个弹珠是绿色的 

所以我们可以从取出的sample 里面来估计h(x)和f(x)不一样的比例。

Eout :整个罐子里的u

Ein:sample 里面的v

P[|Ein-Eout|> ∈] ≤ 2exp(-2*∈*∈*N) 

由于Eout ≈Ein ,如果在Ein很小,是不是就可以说明学习到东西了呢?

如果没有选择,在Ein并不小的情况下,那么我们只能说明,我们在验证,不能说我们学到了东西。

上面只是针对一个h的情况

那么我们在有很多个h的情况下,如何说明我们学习到了呢?

比如,我们有150个h,每个h取sample。如果一个h的sample是全对,那么我们可以说这个h是最好的,是全对的吗?

们要考虑这样的情况。

假设有150个人,没人丢硬币5次,我们知道真正的f是0.5,每个人丢的情况是一个h,那么出现5次正面的概率是1-(31/32)的150次方 > 99%,那么我们面对这样的概率,还能说Eout ≈ Ein吗?

由上面的不等式,知道Eout和Ein相差很大的几率很小,但是当h的选择增多以后,显然会恶化这种情况。

所以我们定义不好的资料,

当Ein 和 Eout差距很大,就是不好的资料

那么用不等式来解释

P(BAD) = P(BAD for h1 or BAD for h2... or BAD for hm ),因为对于每个h来说,不同的资料有可能是不同的,所以用or

<=P(BAD for h1) + P(BAD for h2) + ... + P(BAD for hm).<=  2exp(-2*∈*∈*N) + 2exp(-2*∈*∈*N) +...+ 2exp(-2*∈*∈*N) 

=2Mexp(-2*∈*∈*N) 

所以有M个h的时候,那么选择到Eout 和 Ein相差很大的几率会乘上100倍

所以当M时有限的,如果N足够大,我们还是可以说Eout ≈ Ein,所以当Ein很小的时候,还是可以说我们是有学习到东西的。

但是像PLA一样,我们的线是无限条的,对于M=∞的时候,我们又改怎么理解呢?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值