学习笔记4,机器学习的可行性
知识点1:有时候机器学习是做不到的。
为什么呢?请看如下的例子:图1的3张图片的y=-1,图2的3张图片y=+1,请问图3这张图片y=?
图1
图2
图3
如果是从对称性的角度来说图3中图片的y=+1,如果是从左上角是否是黑色块的角度来说图3中图片的y=-1。好像Learning是不可行的。
我们想要的事情是在资料以外的部分g能不能和f做的一样好,但是这个例子好像告诉我们”我们想要的事情是做不到的“,在机器学习中这类研究叫做No Free Lunch(天下没有白吃的午餐)。如果我们给机器资料,机器去学资料,到底资料以外发生什么事,通常我们是没有办法有任何的结论的(即g在我们所看过的资料以外对f好或者不好)。如果需要有结论,就要加上一些假设。
知识点2:Hoeffding不等式
从图4的例子中来理解什么是Hoeffding不等式。
图4
代表瓶子中orange marble占整个瓶子的比例,未知,也不需要知道; 代表抽样的样本中orange marble占样本的比例,已知;
公式为,表示和之间的误差超过的概率是有上限的。我们可以说如果样本的数量N越大(则上限越小),那=大概差不多是正确的(probably approximately correct PAC),换句话说就是大概能够通过已知的来推理出未知的。
知识点3:Probability与Learning的关系
Bin | Learning |
未知的orange marble的Probability,用来表示 | fixed hypothesis h(x) =? target f(x) |
marble Bin | x X |
organe marble | h is wrong h(x) f(x) (有一个固定的h) |
green marble | h is right h(x)= f(x) (有一个固定的h) |
来自于Bin中抽取的Sample,Size用N来表示 | Check h on D={(,)} |
由此可以得到:如果我们的资料量足够的大(large N),并且是独立取样的,我们大概可以说:“从资料中得到的h()的比例,大概可以推导出h(x)f(x)的比例。”
图5
(out of sample error)表示h和f在整个bin中是否一样,相当于(未知);(in sample error)表示在资料上h和y是否一样,相当于(已知);将和代入Hoeffding不等式,得到如下公式:
,Hoeffding告诉我们这2个东西(,)大概差不多。
如果 and很小也很小 资料继续从P中产生出来(就是以P的形式的概率分布),那hf(h和f很接近)。
知识点4:Real Learning
从上述的内容来看,我们根本就没有使用Machine learning alogrithmn,因为h是固定的,没有从hypothesis set中选择,而真正的机器学习需要从hypothesis set中选择h。
图六
假设我们有10个bin,从中抽取marble,假使有一个bin抽出的全部是green marble,就是=0,我们是否要选择这个bin?。对应就是我们有10个hypothesis,其中有1个hypothesis在所对应的资料上全部正确,我们是否要选择这个hypothesis。
Hoeffding不等式告诉我们的是取样出来的和bin中的大部分是一样的,只有小部分是不好的,所谓不好是取样出来的和bin中的差的很远,就是和差的很远。但是在有了选择的时候,这些选择会恶化不好的情形。
注意:资料好和不好,就是指和是不是差了很远。
图七针对一个hypothesis表示了Hoeffding不等式。
图七
图八出现了多个hypothesis,每一行(每一个hypothesis)告诉我们:“Hoeffding说了,不好的机率很小”,但是我们现在需要的是“演算法需要能安心做选择”,如果资料是D1,演算法会在, , 上踩到雷。只有D1126是好的资料。
图八
我们现在需要知道的是“我们演算法在自由自在做选择的情况下,发生不好的机率是多少?(就是图八中?处)”
推导公式如下:
我们可以得到结论,在H(hypothesis set) M有限 & 资料的数量N足够大的情况下,取一个g,他的最小,从某种角度说他的也是最小的。