本次Lecture介绍了机器学习中比较常用的三个“锦囊妙计”。
Occam's Razor
奥卡姆剃刀定律(Occam’s Razor),总结而言就是“如无必要,勿增实体”,要用尽可能简单且有好效果的方法来处理数据。
那么就有两个问题:
- 什么样的模型是“简单的”?简单的模型一方面指hypothesis比较简单,也就是模型的参数比较少;另一方面指模型的hypotheses有限不太多。这两者是有关联的,因为这两者是由指数关系限制的,当有个特征的时候,hypothesis的个数就是。于是可以一开始就选择简单的model,或者用regularization让hypothesis中参数个数减少,降低模型复杂度。
- 为什么简单的模型表现更好?假设数据是杂乱无规律的,那么大多数情况是做不到正确分类的,采用很复杂的模型当然能分类成功,但是其泛化能力并不好,而如果用很容易的模型分类效果很好,说明数据本身应该是具有一定规律性的。也就是说,对于一个复杂模型能够分类,并不能保证数据的规律性存在,而简单模型下的良好表现就更体现显著性。
Sampling Bias
当抽样样本有偏差时,学习的结果也会产生偏差,这就是sampling bias抽样偏差,用一句话表示就是“If the data is sampled in a biased way, learning will produce a similarly biased outcome.”
也就是,训练数据和验证数据要服从同一个分布,最好都是独立同分布的,让两个环境尽可能接近,这样才会有好结果。
Data Snooping
在进行模型选择的时候一定要避免“偷窥”数据,这样会使我们人为地倾向于某种模型,而不是从自由选择,这会让判断产生错误。而“偷窥”的情况并不仅指直接看到原始数据,在使用这些数据或相关统计量等时就已经间接偷看到了数据,依此进行决策的时候就增加了许多模型复杂度,引入了污染。
在学术研究中,对于一个基准数据集D,某个人建立了模型H1,发表了论文,之后的每个人都根据前人的论文模型来建立新的模型。这样其实在后面人选择模型的时候已经被前人模型所影响了,根据前人的模型而避开了很多错误,这也是偷窥数据的一种情况。这样可能会造成overfitting或bad generalization。
避免“偷窥数据”很重要,但这却是很难避免的,下面两个方法可以帮助我们尽量避免:
- Be blind:在选择模型的时候尽量用自己的经验和知识来选择,而不是通过数据来做决定,先定模型再看数据。
- Be suspicious:读论文和成果时都要谨慎和怀疑,自己做研究的时候也要有怀疑。
Power of Three
这小节是对整节课的总结:
- Data Mining、AI、Statistics
- Hoeffding、Multi-Bin Hoeffding、VC
- PLA/pocket、linear regression、logistic regression
- Feature Transform、Regularization、Validation
- Occam’s Razer、Sampling Bias、Data Snooping