为什么机器可以学习（2）_机器为什么可以学习-CSDN博客

1 引言

从这个系列文章的第四篇开始，我们开启了机器学习可行性的讨论我们经过了“天下没有白吃的午餐 (No Free Lunch)”的考验，了解了“No Free Lunch”定理的前提假设，也得知了在具体的现实问题中，使用与问题匹配的学习算法可以取得很好的效果。
现在我们将继续出发，带上最初开启这个主题时的终极疑惑
你敢和机器学习投资吗。
你由历史数据训练的模型是否在能在未来的预测中表现的一样好呢。

第一种情况——Hypothesis Set 中只有一个 hypothesis 的情况

第一种情况，我们首先看看 Hypothesis Set 中只有一个 hypothesis 时会发生什么。
当 Hypothesis Set 中只有一个 hypothesis 时，模型的预测准确率与训练准确率的关系可以类比成一个相当好理解的例子——人口调查。
在这里插入图片描述

如果要调查某省总人口男性的比例，你不可能去一一对去统计。常见的办法是科学的进行抽样，抽样的男性的比例接近总人口的男性比例，其可行性可以由Hoffeding inequality 保证。
Hoeffding不等式可以保证 “总人口中的男性比例(记作x)” 与 “样本中的男性比例(记作y)” 满足以下关系：
在这里插入图片描述

是你可以设定的容忍误差范围，N是你的抽样大小。Hoeffding不等式告诉我们，当N足够大时，“总人口中的男性比例” 与 “样本中的男性比例” 的差值，这个值超出误差范围的概率会非常小。比如你希望误差范围为0.01，代入Hoeffding不等式计算可得，大约只需要抽样调查5万人即可保证x和y的差值超出的概率小于等于0.01%.
于是我们可以通过抽样统计来精确的推断总人口中男性的比例。
理解了人口调查的例子，其实 Hypothesis Set 中只有一个 hypothesis 的情况是完全等价的：
1：我们既然希望知道模型的准确率，就像我们知道总人口中男性的比例。
2：既然我们可以抽样的比例来估计总人口中男性的比例，我们也可以用训练模型的准确率来逼近预测准确率。
具体的，只需将 Hypothesis Set 中这个唯一的 hypothesis 记作h’，对应的上帝真相 (Ground Truth)记作f，然后做两个简单的替换：
将人口统计中的 ”男“ 替换成 “h’判断正确，即h’(x)=f(x)”
将人口统计中的 ”女“ 替换成 “h’判断错误，即
在这里插入图片描述

如图 2 所示，替换之后就跟人口统计一样，我们希望知道未知数据上模型的预测准确率，只需科学采样并统计样本数据上的准确率即可。它当然也满足Hoeffding不等式，“在未知数据上预测正确的比例Epredict(h’) 与 “在样本上训练正确的比例(记作Etrain(h’)” 满足以下关系：

在这里插入图片描述

其中你可以设定的容忍误差范围，N是你的抽样大小。这时我们称：在这里插入图片描述
is Probably Approximately Corrent (PAC) 。

3. 第二种情况 —— Hypothesis Set 中存在有限个 hypothesis 的情况

在第一种情况中，我们已经得到在这里插入图片描述 is Probably Approximately Corrent (PAC) 。
不过因为 Hypothesis Set 中只有一个 hypothesis h’，所以学习算法并没什么好选的，学到的模型一定就是h’。当学习算法没有选择的空间时，得到一个训练准确率很高的模型几乎是不可能的。就像 PLA 算法如果只有一条线可选，这条线多半在训练数据上的表现是很差的。这时预测能做到跟训练差不多的水准，多半也不是表现的“一样好”，而是表现的”一样差“了。
所以Hypothesis set 有多种Hypothesis,学习算法才有空间挑选一个准确率高的Hypothesis.此时预测接近训练表现才是有意义的。
既然如此，那么现在我们就来讨论一下第二种情况，看看当 Hypothesis Set 中存在有限个 hypothesis 时会发生什么。为了便于表达，我们称这种情况为有限假设空间，并假设 Hypothesis Set 中有M个 hypothesis。
我们先来回顾单个Hypothesis的情况。
在这里插入图片描述
这个公式表明了预测准确率偏离训练准确率的概率很小，但反过来看，它也相当于是说，采样多达次，平均也会撞到一次超出容忍误差的情况。用人口统计的例子来说就是，每年统计一次，一连统计了5万年，平均也会遇到一次精度超出预期。如果我们把这种情况称为“hypothesis h’撞了墙”，将 “h’撞了墙的概率” 用P(h’撞墙)表示，则有
在这里插入图片描述
当 Hypothesis Set 有M个假设时，任意一个 hypothesis 撞了墙都是我们不希望看到的，因为任何一个 hypothesis 都有可能被学习算法选作最终的模型。所以，现在就让我们看看“任意 hypothesis 撞墙的概率”。

这对于机器学习来说仍然是个好消息，因为无论M个 hypothesis 中哪个hypothesis 被学习算法选作最终的模型g，只要样本数N足够大，仍然可以保证g的 “训练准确率” 与 “预测准确率” 的差值，这个值超出误差范围的概率会非常小。