【02】台大机器学习L5 训练与测试

【L5】Why? 训练和测试

  • Recap and Preview 回顾
  • Effective Number of lines
  • Effective Number of Hypotheses
  • Break Point

1、回顾

前面4讲简单介绍了机器学习的基本分类,应用以及简单的分类算法以及PAC概率论与Learning的结合,

  • Learning 其实就是找到在一Hypo集H中找到合适的hypo g 使得 g = f(实际中的潜在模式Pattern),但是存在问题,你通过采样得到的训练集训练得到的g不一定适用于其他的样本,所以我们需要测试和验证。但是根据霍夫丁不等式-在足够多的数据集下和有限个Hypo及H个数下,采样得到的g 按概率PAC接近 f
    (出错的概率也尽量要少)

  • 上节遗留下的问题就是:实际中有限个数的Hypo集H是比较少的,一般都是无限的,就拿PLA二元分类的H集,它存在无数个的Hypo啊!那么如何解决这样的问题呢?
    本讲简单介绍了,无限 —— 有限
    图2

数据学习流程

  • 采样样本集训练(g)得到的结果误差Ein要小,=0 最好
  • 测试集得到的结果-在Hypo g下(Eout)与训练集得到的结果误差很接近
    图3

  • 2个问题:
    1 能否确保测试的与采样训练的结果接近 Eout(g) = Ein(g)
    2 能否使得Ein(g)-= 0, 训练的误差最小化?
    那么Hypo集H中的几何个数对这两个问题能否有帮助呢?

图4

图5

【Note】
M小,出错的概率小,但是g的选择性就少了(从H中得到)
M大,出错的概率大,但是g的选择多!
所以,M的值比较重要。
无限——)以有限mh来替代
图6


2、Effective Numbers of lines 有效数

【围绕M的讨论】
对于上面M的大小,对Learning存在一定的障碍,如何稍微清除这个障碍呢?下面就对M展开讨论了:
图7

  • BAD events 是什么样的?Ein-Eout的差距> 常数值
  • 让算法去训练,出错的概率还是存在的
  • 最不好的情况:所有的BAD events(选到不好的数据集)都没有重叠性。
    其实,这个【Non-overlapping】在现实中很少存在,所以大多都是层叠的。
    图8

Overlapping Examples

  • 2D空间中
    1、1个inputs(点)在一个平面上,那么分类线有几种情况? 2种
    图9

2、2个inputs呢?4种
图10

3、3个inputs呢?2^3种?是6种
图11

4、4个inputs?最多14种,不是2^4方
图12

  • Sum
    总的来说,M不是幂次方的数量级了,而是比之小的数值。这个就给我们Learning带来了方便。
    图13

3、Effective Number of Hypotheses

Hypo集合H中有用有效的数目

Mini-Hypo 简单的假设 二分类(Dichotomies)

1、【Dichotomy】从H中任意选取一个方程h,让这个h对D进行二元分类,输出一个结果向量,比如对4个点进行预测,输出{o,o,o,×},这样的一个输出向量我们称它为一个dichotomy。就是二分后的结果。
图14
2、【Growth Function】成长函数

  • 与inputs个数N相关的函数
    图15

  • 不同的Growth 函数
    图16

  • Mini Sum
    图17

所以最好mh(H)为二项式而不是指数的形式,这样错误的概率就比较小了!


4 临界点Break Point

这个临界点Break Point指的是使得Mh不再是2^N(指数形式)的第一个点,也就是突破指数形式束缚的第一个点(人可以找到自己的那个Break Point就自由了,现在的我们大多生活在束缚之中,金钱权利,欲望如果成指数形式的增长,那么人就会变成欲望的奴隶,活得愚蠢至极。)

  • 四个BPoints
    图18

SUM


致谢

1、感谢台大林轩田老师及其团队

2、感谢此机器学习笔记的博主 参考笔记

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值