[課程筆記] 機器學習基石 - W5. Training versus Testing

本文链接：https://blog.csdn.net/JYLin_master/article/details/123770491

Video1: Recap and Preview

Recap

Two Central Questions

Trade-off on M

Video2: Effective Number of Lines

Where Did M Come From?

How Many Lines Are There?

Effective Number of Lines

Video3: Effective Number of Hypotheses

Dichotomies: Mini-hypothesis

Growth Function

各种 Growth Function (1)

各种 Growth Function (2)

Video4: Break Point

The Four Growth Functions

Break Point of H

参考

Video1: Recap and Preview

Recap

当 M 的数量是有限的，且抽样的数量够大时， $E_{in}$ 会很接近 $E_{out}$
当我们能透过 $E_{in}$ ，大概的估算出 $E_{out}$ ，则可以挑选一个 $E_{in}$ 最小的 g
因此学习是可行的

Two Central Questions

在过去的几堂课，分别是讲到:
- Week 1: 我们希望找到一个 $g \approx f$
- Week 2: 在特定条件下， PLA 的确可以找到一个 g 使得 $E_{in}(g) \approx 0$
- Week 3: 介绍了各种类型机器学习
- Week 4: 在特定条件下， $E_{in}(g) \approx E_{out}(g)$
主要有两个问题
- 在什么条件下， $E_{in}(g) \approx E_{out}(g)$ ?
- 是否能够让 $E_{in}(g)$ 变小?
M 在这两个问题中扮演了什么角色?

Trade-off on M

M 的选择
- M很小:
  - 好处: 不容易取到坏数据，所以能准确估算 $E_{out}(g)$
  - 坏处: 可选择的 h 较少，不容易选到好的 g
- M很大:
  - 好处: 可选择的 h 较多，容易选到好的 g
  - 坏处: 容易取到坏数据，无法准确估算 $E_{out}(g)$
在接下来的课程，会尝试找出一个与 M 相关，但数值有限的 $m_H$ ，并证明即使在 M 无限大时学习仍是可行的

Video2: Effective Number of Lines

Where Did M Come From?

对于一个 h 来说，坏事发生的几率 $B_m$ :

$P( |E_{in} - E_{out}| > \epsilon ) \leq 2\cdot exp(-2\epsilon^2N)$

如果有 M 个 h，则至少一个 h 发生坏事的几率，可用 Union bound 得出:

$P( |E_{in} - E_{out}| > \epsilon ) \leq 2 \cdot M \cdot exp(-2\epsilon^2N)$

使用 Union bound 的问题是
- 直接将每个 h 的坏事发生几率 $B_m$ 视为没有交集，来得到一个过大的值
- 当 M 的数量是无限，则 bound 会变成无限大而失去意义
事实上，在 H 中有许多 h 是很相近的 (像是 perceptron 中，位置与斜率很接近的多条线)，因此这些 $B_m$ 应该是高度重合的，这时使用 Union bound 会高估 $P(B_1 \: or \: B_2 \: ... \: B_m)$

How Many Lines Are There?

如果根据直线对数据的分类结果进行分类 :
- 1 个数据点: 2种直线
- 2 个数据点: 4种直线
- 3 个数据点: < 8种直线
- 4 个数据点: < 16种直线
随着数据点数量增加，直线种类数量会与 $2^N$ 差距越来越大

Effective Number of Lines

将 h 对 N 个数据的分类结果的种类数量，称为 "有效直线数量"
在 perceptron 中，有效直线数量 $\leq 2^N$
接着只要证明下面的式子是成立的，则 PLA 的学习是可行的
- 可以使用 "有效直线数量" 来替换 M
- 有效直线数量 << $2^N$

Video3: Effective Number of Hypotheses

Dichotomies: Mini-hypothesis

一个 Dichotomy 指的是 h 对于 N 个数据点的一种分类结果 (e.g. OOXXO)
Hypothesis 与 Dichotomies 的差异:
- Hypothesis, H
  - 集合大小无限大
- Dichotomies, H(x1, x2, ..., xN)
  - 与 H、数据点有关
  - 集合大小是有限的
或许可以利用 Dichotomies 的大小来替换 M ?

Growth Function

Dichotomies 集合大小，与数据点有关
Growth Function,
- 定义为 H 在 N 个数据点下，Dichotomies 的最大数量
- 与数据点的取用无关
- 大小是有限的 (以perceptron 为例， $m_H(N) \leq 2^N$ )

各种 Growth Function (1)

当 H 是 positive rays:

$m_H(N) = N+1$

当 H 是 positive intervals:

$m_H(N) = \frac{N^2}{2} + \frac{N}{2} + 1$

可以发现，当 N 很大时

$m_H(N) \ll 2^N$

各种 Growth Function (2)

当 H 是 Convex sets :

$m_H(N) = 2^N$

透过取出排列成圆的数据点，可以发现各种 Dichotomy 都能得到

Video4: Break Point

The Four Growth Functions

回顾前面得到的四种 H 的 growth function
如果我们能用 $m_H(N)$ 替换 M，我们希望 $m_H(N)$ 是多项式的形式，因为这样就能确定随着 N 增加 $E_{in} \approx E_{out}$

Break Point of H

在给定的 H 下，随着数据量 N 的增加，在某个 N 时会开始发生 $m_H(N) < 2^N$
此时的 N 称为 Break Point, k
透过观察发现，k 与似乎有一些关系
- 如果不存在 k，则 $m_H(N) = 2^N$
- 如果存在 k，则 $m_H(N) = O(N^{k-1})$
- 证明将在后面的课程说明