台大机器学习基石 Lecture 16 - Three Learning Principles

最新推荐文章于 2020-12-18 18:44:01 发布

ZayneHuang

最新推荐文章于 2020-12-18 18:44:01 发布

阅读量219

点赞数

分类专栏：台大机器学习基石

本文链接：https://blog.csdn.net/github_36324732/article/details/87926806

版权

台大机器学习基石专栏收录该内容

16 篇文章 0 订阅

订阅专栏

本次Lecture介绍了机器学习中比较常用的三个“锦囊妙计”。

Occam's Razor

奥卡姆剃刀定律（Occam’s Razor），总结而言就是“如无必要，勿增实体”，要用尽可能简单且有好效果的方法来处理数据。

那么就有两个问题：

什么样的模型是“简单的”？简单的模型一方面指hypothesis比较简单，也就是模型的参数比较少；另一方面指模型的hypotheses有限不太多。这两者是有关联的，因为这两者是由指数关系限制的，当有个特征的时候，hypothesis的个数就是 $2^{l}$ 。于是可以一开始就选择简单的model，或者用regularization让hypothesis中参数个数减少，降低模型复杂度。
为什么简单的模型表现更好？假设数据是杂乱无规律的，那么大多数情况是做不到正确分类的，采用很复杂的模型当然能分类成功，但是其泛化能力并不好，而如果用很容易的模型分类效果很好，说明数据本身应该是具有一定规律性的。也就是说，对于一个复杂模型能够分类，并不能保证数据的规律性存在，而简单模型下的良好表现就更体现显著性。

Sampling Bias

当抽样样本有偏差时，学习的结果也会产生偏差，这就是sampling bias抽样偏差，用一句话表示就是“If the data is sampled in a biased way, learning will produce a similarly biased outcome.”

也就是，训练数据和验证数据要服从同一个分布，最好都是独立同分布的，让两个环境尽可能接近，这样才会有好结果。

Data Snooping

在进行模型选择的时候一定要避免“偷窥”数据，这样会使我们人为地倾向于某种模型，而不是从自由选择 $\Phi$ ，这会让判断产生错误。而“偷窥”的情况并不仅指直接看到原始数据，在使用这些数据或相关统计量等时就已经间接偷看到了数据，依此进行决策的时候就增加了许多模型复杂度，引入了污染。

在学术研究中，对于一个基准数据集D，某个人建立了模型H1，发表了论文，之后的每个人都根据前人的论文模型来建立新的模型。这样其实在后面人选择模型的时候已经被前人模型所影响了，根据前人的模型而避开了很多错误，这也是偷窥数据的一种情况。这样可能会造成overfitting或bad generalization。

避免“偷窥数据”很重要，但这却是很难避免的，下面两个方法可以帮助我们尽量避免：