目录
Video2: Effective Number of Lines
Video3: Effective Number of Hypotheses
Video1: Recap and Preview
Recap
- 当 M 的数量是有限的,且抽样的数量够大时, 会很接近
- 当我们能透过,大概的估算出,则可以挑选一个最小的 g
- 因此学习是可行的
Two Central Questions
- 在过去的几堂课,分别是讲到:
- Week 1: 我们希望找到一个
- Week 2: 在特定条件下, PLA 的确可以找到一个 g 使得
- Week 3: 介绍了各种类型机器学习
- Week 4: 在特定条件下,
- 主要有两个问题
- 在什么条件下, ?
- 是否能够让 变小?
- M 在这两个问题中扮演了什么角色?
Trade-off on M
- M 的选择
- M很小:
- 好处: 不容易取到坏数据,所以能准确估算
- 坏处: 可选择的 h 较少,不容易选到好的 g
- M很大:
- 好处: 可选择的 h 较多,容易选到好的 g
- 坏处: 容易取到坏数据,无法准确估算
- M很小:
- 在接下来的课程,会尝试找出一个与 M 相关,但数值有限的 ,并证明即使在 M 无限大时学习仍是可行的
Video2: Effective Number of Lines
Where Did M Come From?
- 对于一个 h 来说,坏事发生的几率 :
- 如果有 M 个 h,则至少一个 h 发生坏事的几率,可用 Union bound 得出:
- 使用 Union bound 的问题是
- 直接将每个 h 的坏事发生几率 视为没有交集,来得到一个过大的值
- 当 M 的数量是无限,则 bound 会变成无限大而失去意义
- 事实上,在 H 中有许多 h 是很相近的 (像是 perceptron 中,位置与斜率很接近的多条线),因此这些应该是高度重合的,这时使用 Union bound 会高估
How Many Lines Are There?
- 如果根据直线对数据的分类结果进行分类 :
- 1 个数据点: 2种直线
- 2 个数据点: 4种直线
- 3 个数据点: < 8种直线
- 4 个数据点: < 16种直线
- 随着数据点数量增加,直线种类数量会与 差距越来越大
Effective Number of Lines
- 将 h 对 N 个数据的分类结果的种类数量,称为 "有效直线数量"
- 在 perceptron 中,有效直线数量
- 接着只要证明下面的式子是成立的,则 PLA 的学习是可行的
- 可以使用 "有效直线数量" 来替换 M
- 有效直线数量 <<
Video3: Effective Number of Hypotheses
Dichotomies: Mini-hypothesis
- 一个 Dichotomy 指的是 h 对于 N 个数据点的一种分类结果 (e.g. OOXXO)
- Hypothesis 与 Dichotomies 的差异:
- Hypothesis, H
- 集合大小无限大
- Dichotomies, H(x1, x2, ..., xN)
- 与 H、数据点有关
- 集合大小是有限的
- Hypothesis, H
- 或许可以利用 Dichotomies 的大小来替换 M ?
Growth Function
- Dichotomies 集合大小,与数据点有关
- Growth Function,
- 定义为 H 在 N 个数据点下,Dichotomies 的最大数量
- 与数据点的取用无关
- 大小是有限的 (以perceptron 为例,)
各种 Growth Function (1)
- 当 H 是 positive rays:
- 当 H 是 positive intervals:
- 可以发现,当 N 很大时
各种 Growth Function (2)
- 当 H 是 Convex sets :
- 透过取出排列成圆的数据点,可以发现各种 Dichotomy 都能得到
Video4: Break Point
The Four Growth Functions
- 回顾前面得到的四种 H 的 growth function
- 如果我们能用 替换 M,我们希望 是多项式的形式,因为这样就能确定随着 N 增加
Break Point of H
- 在给定的 H 下,随着数据量 N 的增加,在某个 N 时会开始发生
- 此时的 N 称为 Break Point, k
- 透过观察发现,k 与 似乎有一些关系
- 如果不存在 k,则
- 如果存在 k,则
- 证明将在后面的课程说明