机器学习基石 4.4 Connection to Real Learning

1. Multiple h h h

如果有一个 h h h在手上的资料中没有犯错(全是绿色的弹珠),即 E i n ( h M ) = 0 E_{in}(h_{M})=0 Ein(hM)=0,能否说这个 h h h就是完美的?
这里写图片描述

2. Coin Game

不能,比如150个人一起抛硬币,出现一个5次全部正面的概率大于99%,但此时不能说这个5次全部正面的硬币有魔法。
这里写图片描述

3. BAD Sample and BAD Data

坏的样本指的是那些 E i n E_{in} Ein E o u t E_{out} Eout相差很大的样本。

这里写图片描述

对于一个 h h h来说,坏的数据集指的是那些 E i n ( h ) E_{in}(h) Ein(h) E o u t ( h ) E_{out}(h) Eout(h)相差很大的数据集。Hoeffding的理论告诉我们,这种情况发生的概率很小。

这里写图片描述

h h h有很多种选择时,坏的数据集指的是可能会在某个 h h h E i n ( h ) E_{in}(h) Ein(h) E o u t ( h ) E_{out}(h) Eout(h)相差很大的数据集。

这里写图片描述

Hoeffding的理论只说明了对于一个 h h h,一个数据集是坏的的概率很小。

这里写图片描述

当有 M M M h h h

这里写图片描述

这是Hoeffding在有限的bin上的版本。
同样不依赖于任何的 E o u t ( h m ) E_{out}(h_{m}) Eout(hm),不需要知道 E o u t ( h m ) E_{out}(h_{m}) Eout(hm)
所以 E i n ( g ) = E o u t ( g ) E_{in}(g)=E_{out}(g) Ein(g)=Eout(g)大概是对的,并且与使用的Learning Algorithm无关。

这里写图片描述

所以最有效的算法就如同前面讲到的PLA或者pocket一样,选择 E i n ( h m ) E_{in}(h_{m}) Ein(hm)最小的 h m h_{m} hm作为g。

这里写图片描述

4. The ‘Statistical’ Learning Flow

以上结论说明:如果 H \mathcal{H} H是有限的并且 N N N足够大,那么机器学习是可行的。

这里写图片描述

下一讲将讨论 H \mathcal{H} H无限大(比如perceptrons)的情形。

5. Fun Time

根据公式,3是对的。
2是对的,只添加一个负号并不会改变数据的好坏,正因如此,4是对的,相当于根据公式得到的 M = 2 M=2 M=2时的情形,添加负号后坏的数据集与原来的坏的数据集是一样的。

这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值