台湾大学林轩田《机器学习基石》学习笔记第16讲——Three Learning Principles

上节课我们讲了一个机器学习很重要的工具——Validation。这节课,我们主要介绍机器学习中非常实用的三个“锦囊妙计”。

一、Occam’s Razor
在这里插入图片描述

Occam’s razor is the problem-solving principle that the simplest solution tends to be the right one. When presented with competing hypotheses to solve a problem, one should select the solution with the fewest assumptions.
——Wikipedia

  • 奥卡姆剃刀定律(Occam’s Razor)即“简单有效原理”。正如他在《箴言书注》2卷15题说“切勿浪费较多东西去做,用较少的东西,同样可以做好的事情。”
  • Occam’s Razor反映到机器学习领域中,指的是在所有可能选择的模型中,我们应该选择能够很好地解释已知数据并且十分简单的模型。
    在这里插入图片描述
  • 简单的hypothesis意味着比较少的feature parameters
  • 简单的model意味着更少数量的hypothesis
  • 由此简单的model和hypothesis都可以给我们带来更小的复杂度

二、Sampling Bias
在这里插入图片描述

  • 如果抽样有偏差的话,那么学习的结果也产生了偏差,这种情形称之为抽样偏差Sampling Bias;
  • 从技术上来说,就是训练数据和验证数据要服从同一个分布,最好都是独立同分布的,这样训练得到的模型才能更好地具有代表性;
  • 机器学习都是建立在独立同分布的基础之上的。

三、Data Snooping
在这里插入图片描述
之前的课程,我们介绍过在模型选择时应该尽量避免偷窥数据,因为这样会使我们人为地倾向于某种模型,而不是根据数据进行随机选择。那么有哪些情况可能是属于data snooping呢?下面举几个例子:
在这里插入图片描述

  • 当你在使用这些数据的任何过程,都是间接地偷看到了数据本身,然后你会进行一些模型的选择或者决策,这时候你的人脑就负责了一部分的model complexity,而在评估机器学习时却没有考虑这部分。
    在这里插入图片描述

  • 假如我们有8年的货比交易数据,我们希望从这些数据中找出规律,来预测货比的走势。如果选择前6年数据作为训练数据,后2年数据作为测试数据的话,来训练模型。现在我们有前20天的数据,根据之前训练的模型,来预测第21天的货比交易走势;

  • 现在有两种训练模型的方法,如图所示,一种是使用前6年数据进行模型训练,后2年数据作为测试,图中蓝色曲线表示后2年的预测收益;另一种是直接使用8年数据进行模型训练,图中红色曲线表示后2年的预测收益情况。图中,很明显,使用8年数据进行训练的模型对后2年的预测的收益更大,似乎效果更好;

  • 但是这是一种自欺欺人的做法,因为训练的时候已经拿到了后2年的数据,用这样的模型再来预测后2年的走势是不科学的。这种做法也属于间接偷窥数据的行为。

  • 直接偷窥和间接偷窥数据的行为都是不科学的做法,并不能表示训练的模型有多好。
    在这里插入图片描述

  • 针对相同的数据和问题,前人使用了H1模型,表现不错并发表了论文,后来又有人使用了H2、H3等模型,表现越来越好,以此发表了论文;

  • 这样,不断地有人看过前人的论文后,建立新的模型。其实,后面人选择模型时,已经被前人影响了,这也是偷窥数据的一种情况。
    在这里插入图片描述

  • 在机器学习过程中,避免“偷窥数据”非常重要,但实际上,完全避免也很困难。实际操作中,有一些方法可以帮助我们尽量避免偷窥数据。

  • 第一个方法是“看不见”数据。就是说当我们在选择模型的时候,尽量用我们的经验和知识来做判断选择,而不是通过数据来选择。先选模型,再看数据。

  • 第二个方法是保持怀疑。就是说时刻保持对别人的论文或者研究成果保持警惕与怀疑,要通过自己的研究与测试来进行模型选择,这样才能得到比较正确的结论。

四、Power of Three —— Summary
总结本门课学习中的“三大”:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

致谢:

  • 首先要感谢林轩田老师带来这么精彩的课程;
  • 其次要感谢博主红色石头will的博文,本学习笔记大部分参考了这个博客,自己动手整理主要是为了帮助自己更好地掌握和学习;
  • 最后要感谢自己,转行不容易,继续加油!!!
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值