台湾大学林轩田《机器学习基石》学习笔记第5讲——Training versus Testing

最新推荐文章于 2018-09-19 08:37:43 发布

1021stones

最新推荐文章于 2018-09-19 08:37:43 发布

阅读量371

点赞数

分类专栏：林轩田机器学习笔记文章标签： Machine Learning 机器学习基石林轩田学习笔记

本文链接：https://blog.csdn.net/Stoneeeee/article/details/82469851

版权

一、Recap and Preview
我们先来看一下基于统计学的机器学习流程图：
这里写图片描述

该流程图中，训练样本D和最终测试h的样本都是来自同一个数据分布，这是机器能够学习的前提；
另外，训练样本D应该足够大，且hypothesis set的个数是有限的，这样根据霍夫丁不等式，才不会出现BadData，保证Ein≈Eout，即有很好的泛化能力；
同时，通过训练，得到使Ein最小的h，作为模型最终的矩g，g接近于目标函数；
这里注意到我们将Ein(h)≈Eout(h)这个过程称之为对h的test验证，对找到一个g使得Ein(g)≈0，这个过程称之为train训练。

这里写图片描述

第一节课，我们介绍了机器学习的定义，目标是找出最好的g，使g≈f，保证Eout(g)≈0；
第二节课，我们介绍了如何让Ein≈0，可以使用PLA、pocket等演算法来实现；
第三节课，我们介绍了机器学习的分类，我们的训练样本是批量数据（batch），处理监督式（supervised）二元分类（binary classification）问题；
第四节课，我们介绍了机器学习的可行性，通过统计学知识，把Ein(g)与Eout(g)联系起来，证明了在一些条件假设下，Ein(g)≈Eout(g)成立。

这四节课总结下来，我们把机器学习的主要目标分成两个核心的问题：

Ein(g)≈Eout(g)

Ein(g)足够小

上节课介绍的机器学习可行的一个条件是hypothesis set的个数M是有限的，那M跟上面这两个核心问题有什么联系呢？

这里写图片描述

关注