台湾大学林轩田《机器学习基石》学习笔记第5讲——Training versus Testing

一、Recap and Preview
我们先来看一下基于统计学的机器学习流程图:
这里写图片描述

  • 该流程图中,训练样本D和最终测试h的样本都是来自同一个数据分布,这是机器能够学习的前提;
  • 另外,训练样本D应该足够大,且hypothesis set的个数是有限的,这样根据霍夫丁不等式,才不会出现BadData,保证Ein≈Eout,即有很好的泛化能力;
  • 同时,通过训练,得到使Ein最小的h,作为模型最终的矩g,g接近于目标函数;
  • 这里注意到我们将Ein(h)≈Eout(h)这个过程称之为对h的test验证,对找到一个g使得Ein(g)≈0,这个过程称之为train训练。

这里写图片描述

  • 第一节课,我们介绍了机器学习的定义,目标是找出最好的g,使g≈f,保证Eout(g)≈0;
  • 第二节课,我们介绍了如何让Ein≈0,可以使用PLA、pocket等演算法来实现;
  • 第三节课,我们介绍了机器学习的分类,我们的训练样本是批量数据(batch),处理监督式(supervised)二元分类(binary classification)问题;
  • 第四节课,我们介绍了机器学习的可行性,通过统计学知识,把Ein(g)与Eout(g)联系起来,证明了在一些条件假设下,Ein(g)≈Eout(g)成立。

这四节课总结下来,我们把机器学习的主要目标分成两个核心的问题:

  1. Ein(g)≈Eout(g)
  2. Ein(g)足够小

上节课介绍的机器学习可行的一个条件是hypothesis set的个数M是有限的,那M跟上面这两个核心问题有什么联系呢?

这里写图片描述

  • 当M很小的时候,由上节课介绍
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值