[課程筆記] 機器學習基石 - W5. Training versus Testing

目录

Video1: Recap and Preview

Recap 

Two Central Questions

Trade-off on M

Video2: Effective Number of Lines

Where Did M Come From?

How Many Lines Are There?

Effective Number of Lines

Video3: Effective Number of Hypotheses

Dichotomies: Mini-hypothesis

Growth Function

各种 Growth Function (1)

各种 Growth Function (2)

Video4: Break Point

The Four Growth Functions

Break Point of H

参考


Video1: Recap and Preview

Recap 

  • 当 M 的数量是有限的,且抽样的数量够大时,E_{in} 会很接近 E_{out}
  • 当我们能透过E_{in},大概的估算出E_{out},则可以挑选一个E_{in}最小的 g
  • 因此学习是可行的

Two Central Questions

  • 在过去的几堂课,分别是讲到:
    •  Week 1: 我们希望找到一个 g \approx f
    • Week 2: 在特定条件下, PLA 的确可以找到一个 g 使得 E_{in}(g) \approx 0
    • Week 3: 介绍了各种类型机器学习
    • Week 4: 在特定条件下,E_{in}(g) \approx E_{out}(g)
  • 主要有两个问题
    •  在什么条件下,E_{in}(g) \approx E_{out}(g) ?
    • 是否能够让 E_{in}(g) 变小?
  •  M 在这两个问题中扮演了什么角色? 

Trade-off on M

  • M 的选择
    • M很小:
      • 好处: 不容易取到坏数据,所以能准确估算 E_{out}(g) 
      • 坏处: 可选择的 h 较少,不容易选到好的 g
    • M很大:
      • 好处: 可选择的 h 较多,容易选到好的 g
      • 坏处: 容易取到坏数据,无法准确估算 E_{out}(g)  
  • 在接下来的课程,会尝试找出一个与 M 相关,但数值有限的 m_H,并证明即使在 M 无限大时学习仍是可行的

Video2: Effective Number of Lines

Where Did M Come From?

  • 对于一个 h 来说,坏事发生的几率 B_m:

  P( |E_{in} - E_{out}| > \epsilon ) \leq 2\cdot exp(-2\epsilon^2N)

  • 如果有 M 个 h,则至少一个 h 发生坏事的几率,可用 Union bound 得出:

P( |E_{in} - E_{out}| > \epsilon ) \leq 2 \cdot M \cdot exp(-2\epsilon^2N)

  • 使用 Union bound 的问题是
    • 直接将每个 h 的坏事发生几率B_m 视为没有交集,来得到一个过大的值
    • 当 M 的数量是无限,则 bound 会变成无限大而失去意义 
  • 事实上,在 H 中有许多 h 是很相近的 (像是 perceptron 中,位置与斜率很接近的多条线),因此这些B_m应该是高度重合的,这时使用 Union bound 会高估  P(B_1 \: or \: B_2 \: ... \: B_m) 

How Many Lines Are There?

  • 如果根据直线对数据的分类结果进行分类 : 
    • 1 个数据点: 2种直线
    • 2 个数据点: 4种直线
    • 3 个数据点: < 8种直线
    • 4 个数据点: < 16种直线
  • 随着数据点数量增加,直线种类数量会与 2^N 差距越来越大

Effective Number of Lines

  • 将 h 对 N 个数据的分类结果的种类数量,称为 "有效直线数量"
  • 在 perceptron 中,有效直线数量 \leq 2^N
  • 接着只要证明下面的式子是成立的,则 PLA 的学习是可行的
    • 可以使用 "有效直线数量" 来替换 M
    • 有效直线数量 << 2^N

Video3: Effective Number of Hypotheses

Dichotomies: Mini-hypothesis

  • 一个 Dichotomy 指的是 h 对于 N 个数据点的一种分类结果 (e.g. OOXXO)
  • Hypothesis 与 Dichotomies 的差异:
    • Hypothesis, H
      • 集合大小无限大
    • Dichotomies, H(x1, x2, ..., xN)
      • 与 H、数据点有关
      • 集合大小是有限的
  • 或许可以利用 Dichotomies 的大小来替换 M ?

Growth Function

  • Dichotomies 集合大小,与数据点有关
  • Growth Function, m_H(N)
    • 定义为 H 在 N 个数据点下,Dichotomies 的最大数量
    • 与数据点的取用无关
    • 大小是有限的 (以perceptron 为例,m_H(N) \leq 2^N)

各种 Growth Function (1)

  • 当 H 是 positive rays: 

m_H(N) = N+1

  • 当 H 是 positive intervals: 

m_H(N) = \frac{N^2}{2} + \frac{N}{2} + 1

  • 可以发现,当 N 很大时 

m_H(N) \ll 2^N

各种 Growth Function (2)

  • 当 H 是 Convex sets :

m_H(N) = 2^N

  • 透过取出排列成圆的数据点,可以发现各种 Dichotomy 都能得到

Video4: Break Point

The Four Growth Functions

  • 回顾前面得到的四种 H 的 growth function
  • 如果我们能用 m_H(N) 替换 M,我们希望 m_H(N) 是多项式的形式,因为这样就能确定随着 N 增加 E_{in} \approx E_{out}

Break Point of H

  • 在给定的 H 下,随着数据量 N 的增加,在某个 N 时会开始发生  m_H(N) < 2^N
  • 此时的 N 称为 Break Point, k
  • 透过观察发现,k  与 m_H(N) 似乎有一些关系
    • 如果不存在 k,则  m_H(N) = 2^N
    • 如果存在 k,则 m_H(N) = O(N^{k-1})
    • 证明将在后面的课程说明

参考

  1. 機器學習基石上 (Machine Learning Foundations)---Mathematical Foundations | Coursera

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值