第一章 绪论
此系列文章旨在提炼周志华《机器学习》的核心要点,不断完善中…
1.1 引言
- 机器学习研究:通过计算手段,利用经验来改善自身的性能
- 模型:在本书中泛指从数据中学得的结果
1.2 基本术语
含义 | 符号 |
---|---|
X \mathcal{X} X | 样本空间 |
D \mathcal{D} D | 概率分布 |
D D D | 数据样本(数据集) |
H \mathcal{H} H | 假设集 |
L \mathfrak{L} L | 学习算法 |
‖ ⋅ ‖ p {‖\cdot‖}_{p} ‖⋅‖p | L p {L}_{p} Lp 范数, p p p 缺省时为 L 2 {L}_{2} L2 范数 |
E ⋅ ∼ D [ f ( ⋅ ) ] \mathbb{E}_{\cdot \sim \mathcal{D}}[f(\cdot)] E⋅∼D[f(⋅)] | 函数 f ( ⋅ ) f(\cdot) f(⋅) 对 ⋅ \cdot ⋅ 在分布 D \mathcal{D} D 下的数学期望 |
sup ( ⋅ ) \text{sup}(\cdot) sup(⋅) | 上确界 |
I ( ⋅ ) \mathbb{I}(\cdot) I(⋅) | 指示函数 |
1.3 假设空间
- 归纳与演绎
归纳:特殊到一般——泛化过程(归纳学习)
演绎:一般到特殊——特化过程(公理到定理的推导) - 假设空间
将学习过程看做一个在所有假设组成的空间中进行搜索的过程
搜索目标:找到与训练集匹配(fit)的假设
1.4 归纳偏好
-
定义
在学习过程中对某种类型假设的偏好
特征选择:尽量特殊(适用情形少);尽量一般(适用情形多)误差: E o t e ( L a ∣ X , f ) = ∑ h ∑ x ∈ X − X P ( x ) I ( h ( x ) E_{ote}(\mathfrak{L}_a|X,f)=\sum_{h}\sum_{\textbf{x}\in \mathcal{X} -X}P(\textbf{x})\mathbb{I}(h(\textbf{x}) Eote(La∣X,f)=∑h∑x∈X−XP(x)I(h(x) ≠ f ( x ) ) P ( h ∣ X , L a ) f(\textbf{x}))P(h|X,\mathfrak{L}_a) f(x))P(h∣X,La)
-
一些原则
1)奥卡姆剃刀原则:若有多个假设与观察一直,则选择最简单的那个简单的表达稳定性较高,不易产生振荡现象
2)NFL定理(No Free Lunch Theorem):期望(总误差)与算法无关
∑ f E o t e ( L a ∣ X , f ) = ∑ f E o t e ( L b ∣ X , f ) \sum_f E_{ote}(\mathfrak{L}_a|X,f)=\sum_f E{ote}(\mathfrak{L}_b|X,f) f∑Eote(La∣X,f)=f∑Eote(Lb∣X,f)前提:真实目标函数 f f f 均匀分布(问题平均出现,同等重要)
启示:学习算法自身的归纳偏好需与问题匹配
1.5 发展历程
- 50年代初:开始机器学习研究(跳棋程序)
- 50年代中后:基于神经网络的连接主义(感知机)
- 60-70年代:基于逻辑表示的符号主义
- 60-70年代:基于决策理论的学习、强化学习
- 80年代:符号主义学习(从样例中学习:归纳学习)
- 90年代:统计学习(支持向量机、核方法)
- 21世纪初:深度学习