一、Recap and Preview
我们先来看一下基于统计学的机器学习流程图:
- 该流程图中,训练样本D和最终测试h的样本都是来自同一个数据分布,这是机器能够学习的前提;
- 另外,训练样本D应该足够大,且hypothesis set的个数是有限的,这样根据霍夫丁不等式,才不会出现BadData,保证Ein≈Eout,即有很好的泛化能力;
- 同时,通过训练,得到使Ein最小的h,作为模型最终的矩g,g接近于目标函数;
- 这里注意到我们将Ein(h)≈Eout(h)这个过程称之为对h的test验证,对找到一个g使得Ein(g)≈0,这个过程称之为train训练。
- 第一节课,我们介绍了机器学习的定义,目标是找出最好的g,使g≈f,保证Eout(g)≈0;
- 第二节课,我们介绍了如何让Ein≈0,可以使用PLA、pocket等演算法来实现;
- 第三节课,我们介绍了机器学习的分类,我们的训练样本是批量数据(batch),处理监督式(supervised)二元分类(binary classification)问题;
- 第四节课,我们介绍了机器学习的可行性,通过统计学知识,把Ein(g)与Eout(g)联系起来,证明了在一些条件假设下,Ein(g)≈Eout(g)成立。
这四节课总结下来,我们把机器学习的主要目标分成两个核心的问题:
- Ein(g)≈Eout(g)
- Ein(g)足够小
上节课介绍的机器学习可行的一个条件是hypothesis set的个数M是有限的,那M跟上面这两个核心问题有什么联系呢?
- 当M很小的时候,由上节课介绍