文章目录
1. Multiple h h h
如果有一个
h
h
h在手上的资料中没有犯错(全是绿色的弹珠),即
E
i
n
(
h
M
)
=
0
E_{in}(h_{M})=0
Ein(hM)=0,能否说这个
h
h
h就是完美的?
2. Coin Game
不能,比如150个人一起抛硬币,出现一个5次全部正面的概率大于99%,但此时不能说这个5次全部正面的硬币有魔法。
3. BAD Sample and BAD Data
坏的样本指的是那些 E i n E_{in} Ein与 E o u t E_{out} Eout相差很大的样本。
对于一个 h h h来说,坏的数据集指的是那些 E i n ( h ) E_{in}(h) Ein(h)与 E o u t ( h ) E_{out}(h) Eout(h)相差很大的数据集。Hoeffding的理论告诉我们,这种情况发生的概率很小。
当 h h h有很多种选择时,坏的数据集指的是可能会在某个 h h h上 E i n ( h ) E_{in}(h) Ein(h)与 E o u t ( h ) E_{out}(h) Eout(h)相差很大的数据集。
Hoeffding的理论只说明了对于一个 h h h,一个数据集是坏的的概率很小。
当有 M M M个 h h h时
这是Hoeffding在有限的bin上的版本。
同样不依赖于任何的
E
o
u
t
(
h
m
)
E_{out}(h_{m})
Eout(hm),不需要知道
E
o
u
t
(
h
m
)
E_{out}(h_{m})
Eout(hm)。
所以
E
i
n
(
g
)
=
E
o
u
t
(
g
)
E_{in}(g)=E_{out}(g)
Ein(g)=Eout(g)大概是对的,并且与使用的Learning Algorithm无关。
所以最有效的算法就如同前面讲到的PLA或者pocket一样,选择 E i n ( h m ) E_{in}(h_{m}) Ein(hm)最小的 h m h_{m} hm作为g。
4. The ‘Statistical’ Learning Flow
以上结论说明:如果 H \mathcal{H} H是有限的并且 N N N足够大,那么机器学习是可行的。
下一讲将讨论 H \mathcal{H} H无限大(比如perceptrons)的情形。
5. Fun Time
根据公式,3是对的。
2是对的,只添加一个负号并不会改变数据的好坏,正因如此,4是对的,相当于根据公式得到的
M
=
2
M=2
M=2时的情形,添加负号后坏的数据集与原来的坏的数据集是一样的。