MachineLearning(Hsuan-Tien Lin)第四讲

最新推荐文章于 2014-05-18 13:12:08 发布

DanaMeng

最新推荐文章于 2014-05-18 13:12:08 发布

阅读量804

点赞数 1

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/danameng/article/details/21193497

版权

Machine Learning 专栏收录该内容

35 篇文章 1 订阅

订阅专栏

本文探讨了机器学习在面对不同判断标准时可能遇到的困境，并通过概率的方法解释了如何用样本估计总体，以及在机器学习中用样本估计总体与学习的关系。文章指出，当样本数量足够大时，可以通过样本的表现推断总体，这种方法在机器学习中是'probably approximately correct'。然而，文章强调在选择模型时要避免过拟合，通过多个抽样和综合评估来选取表现良好的假设。

摘要由CSDN通过智能技术生成

第四讲

Learning 是否可行?

1、机器学习不可行？

做个有意思的题。先给你一些资料，如图所示，上面三幅图是y=-1，下面三幅图是y=+1。让你学习。

现在，再给你一幅图（下图），问你它的y是多少？

你说是-1。然后，我们公布答案说你错了。因为根据是否对称来判断。上三幅图不对称是-1，下三幅对称是+1，所以新给的图是对称的，是+1。

你说是-1。我们又公布答案说你错了。因为根据左上角第一个格子是否是黑色来判断。上三幅左上角第一个格子都是黑色的，是-1，下面三幅都不是黑色的，是+1。新给的图左上角第一个格子是黑色的，是+1。

所以，判断的标准不一样，好像什么答案都可以说是错的。

再看一个例子：

输入是一个三维的向量，且每个维度只能是0或1。比如x1={0,0,0},x2={0,0,1}。输出是o(+1)或x(-1)。

每一个输出都有2种结果+1和-1。

这样一共有种假设。组成了假设的集合h。

现在，给了5笔资料

问你，这个f（xn）是h中的哪一个？

我们很容易这样想，找出满足上面5笔资料输入后，输出和yn一样的h。

经过一番努力，我们发现这样的h居然有8个

为什么会有8个？因为，对于上面没有给出的3种输入，每一种输入都有两种结果。

对于输入{1,0,1} f1、f2、f3和f4输出+1；而f5、f6、f7和f8都输出-1

对于输入{1,1,0} f1、f2、f5和f6输出+1；而f3、f4、f7和f8都输出-1.

对于输入{1,1,1} f1、f3、f5和f7输出+1；而f2、f4、f6和f8都输出-1.

我们在做预测的时候，不是对已经给的数据D做预测，而是对没有的数据。比如选了f1为g时，当新的数据是{1,1,1}时，我们就会说输出是o（+1）。但是，标准答案告诉我们，“错了，是x（-1），因为真正的g是f2”。

这种感觉就像在做智力题，怎么都是错的，搞得好像真的低智商^_^。

2、用概率的方法推论

上面的问题让我们觉得机器学习好像不可行，那有没有办法让它可行呢？

看这个图，假设它是一个装了很多很多很多弹珠的罐子，现在问你，绿色弹珠的比例是多少？

你会怎么做呢？

你不会把一罐子的弹珠都看一遍，分别数出两种颜色的弹珠的个数吧（）

你大概会这样做：

你会随机抓一把出来，比如10个，然后数一下，这10个中，橘色和绿色的比例，上图所示，绿色7个，橘色3个，你就说“我估计，这个罐子的弹珠，橘色：绿色=3：7。即橘色占了30%，绿色的有70%”

这个方法，如果是学过概率统计的童鞋，就会明白就是样本估计总体，你抓出来的弹珠就是样本（sample）。

由上可知，“绿色弹珠占70%”这个概率是我们的样本算出来的，我们给它一个名字ν。对于总体中绿色弹珠的概率，我们称为μ。

用样本估计总体就是说μ≈ν。

那你就会问，一定能有μ≈ν？如果我就抓了一个弹珠，是绿色的，你就说罐子里全是绿色的弹珠？

当然不是。

如上图，抓的弹珠的数量要够大，比如N，如果抓了一罐子弹珠，那么N就是总体。

即使N很大，也不是随随便便就说μ≈ν。也要计算一下二者的差距。用：

上式称为Hoeffding’s Inequality。这个式子是说，如果N很大，ν和μ很接近，它们之间差的比ε多（ε是个很小的值）的概率是很小的。当N很大的时候，不等式右边是一个很小的数，而此时，ν和μ差的比ε还要多的概率是很小的。
所以，如果我们抽样比较大，抽样的估计和实际的估计其实差不太多。我们想要的最好的结果是μ=ν，我们抽样有70%的绿色弹珠，罐子就有70%绿色弹珠。这句话大概是对的，就是说对的概率很大，差不多是对的，就是两个概率很接近，比如罐子里其实是71%或者69%的绿色弹珠。所以，由样本（N够大时）来推总体是：probably approximately correct（大概差不多是对的！）

那么，这个有什么用？我们本来要做的是求罐子里绿色弹珠的概率μ，但是觉得很难。于是我们说了一堆之后，得出了一个结论，μ=ν这个大概可能是对的。所以，我们就根本不用去求μ了，直接求ν，然后就说是要求的μ。