台大机器学习基石 Lecture 16 - Three Learning Principles

本次Lecture介绍了机器学习中比较常用的三个“锦囊妙计”。

Occam's Razor

奥卡姆剃刀定律(Occam’s Razor),总结而言就是“如无必要,勿增实体”,要用尽可能简单且有好效果的方法来处理数据。

那么就有两个问题:

  • 什么样的模型是“简单的”?简单的模型一方面指hypothesis比较简单,也就是模型的参数比较少;另一方面指模型的hypotheses有限不太多。这两者是有关联的,因为这两者是由指数关系限制的,当有l个特征的时候,hypothesis的个数就是2^{l}。于是可以一开始就选择简单的model,或者用regularization让hypothesis中参数个数减少,降低模型复杂度。
  • 为什么简单的模型表现更好?假设数据是杂乱无规律的,那么大多数情况是做不到正确分类的,采用很复杂的模型当然能分类成功,但是其泛化能力并不好,而如果用很容易的模型分类效果很好,说明数据本身应该是具有一定规律性的。也就是说,对于一个复杂模型能够分类,并不能保证数据的规律性存在,而简单模型下的良好表现就更体现显著性。

Sampling Bias

当抽样样本有偏差时,学习的结果也会产生偏差,这就是sampling bias抽样偏差,用一句话表示就是“If the data is sampled in a biased way, learning will produce a similarly biased outcome.”

也就是,训练数据和验证数据要服从同一个分布,最好都是独立同分布的,让两个环境尽可能接近,这样才会有好结果。

Data Snooping

在进行模型选择的时候一定要避免“偷窥”数据,这样会使我们人为地倾向于某种模型,而不是从自由选择\Phi,这会让判断产生错误。而“偷窥”的情况并不仅指直接看到原始数据,在使用这些数据或相关统计量等时就已经间接偷看到了数据,依此进行决策的时候就增加了许多模型复杂度,引入了污染。

在学术研究中,对于一个基准数据集D,某个人建立了模型H1,发表了论文,之后的每个人都根据前人的论文模型来建立新的模型。这样其实在后面人选择模型的时候已经被前人模型所影响了,根据前人的模型而避开了很多错误,这也是偷窥数据的一种情况。这样可能会造成overfitting或bad generalization。

避免“偷窥数据”很重要,但这却是很难避免的,下面两个方法可以帮助我们尽量避免:

  • Be blind:在选择模型的时候尽量用自己的经验和知识来选择,而不是通过数据来做决定,先定模型再看数据。
  • Be suspicious:读论文和成果时都要谨慎和怀疑,自己做研究的时候也要有怀疑。

Power of Three

这小节是对整节课的总结:

  • Data Mining、AI、Statistics
  • Hoeffding、Multi-Bin Hoeffding、VC
  • PLA/pocket、linear regression、logistic regression
  • Feature Transform、Regularization、Validation
  • Occam’s Razer、Sampling Bias、Data Snooping
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值