第2章 概念学习和一般到特殊序
2.1 概念学习
- 概念学习(Concept Learning):给定一样例集合以及每个样例是否属于某一概念的标注,自动推断出该概念的一般定义。即从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。
- 相关术语:
- 实例集合(Instance): X
- 目标概念(Target Concept):
c - 训练样例(Training Examples): ⟨x,c(x)⟩
- 正例(Positive Examples): {x∈X|c(x)=1}
- 反例(Negative Examples): {x∈X|c(x)=0}
- 假设空间:所有可能假设的集合
H
机器学习的目标:寻找一个假设h ,使对于 X 中的所有x , h(x)=c(x) 。
- 归纳学习的基本假定:任一假设如果在足够大的训练样例集中很好地逼近目标函数,它也能在未见实例中很好地逼近目标函数。
2.2 作为搜索的概念学习
假设的一般到特殊序
令
hj
和
hk
为在
X
上定义的布尔函数。称
2.3 Find-S算法寻找极大特殊假设
存在的问题:
* 无法确定是否找到唯一合适的假设(目标概念本身)
* 训练数据中的错误和噪声将严重破坏算法
* 可能存在多个极大特殊假设
Find-S 算法
1. 将h初始化为H中最特殊的假设;
2. 对每个正例x:
对h的每个属性约束a_i:
若x不满足a_i:
将h中的a_i变为x满足的更一般的约束
3. 输出假设h
2.3 变型空间和候选消除算法
2.3.1 变型空间
- 一致:一个假设
h
与训练样例集合
D 一致 ,当且仅当对 D 中的每一个样例:⟨x,c(x)⟩ 都有 h(x)=c(x) 。
Consistent(h,D)≡(∀⟨x,c(x)⟩∈D)(h(x)=c(x)) - 变型空间:关于假设空间
H
和训练样例集
D 的变型空间,记为 VSH,D ,是 H 中与训练样例集D 一致的所有假设构成的子集。
VSH,D≡{h∈H|Consistent(h,D)}
2.3.2 变型空间的表示
- 一般边界(General Boundary):关于假设空间
H
和训练数据
D 的一般边界 G ,是在H 中与 D 相一致的极大一般(Maximally General)成员的集合。
G≡{g∈H∣Consistent(g,D)∧(∄g′∈H)[(g′>gg)∧Consistent(g′,D)]} - 特殊边界(Specific Boundary):关于假设空间
H
和训练数据
D 的特殊边界 S ,是在H 中与 D 相一致的极大特殊(Maximally Specific)成员的集合。
S≡{s∈H∣Consistent(s,D)∧(∄s′∈H)[(s>gs′)∧Consistent(s′,D)]} - 变型空间表示定理:令
X
为一任意的实例集合,
H 为 X 上定义的布尔假设集合,令c:X→{0,1} 为上定义的任一目标概念,并令 D 为任一训练样例集合。对所有的X 、 H 、c 、 D 以及良好定义的G 和 S :
VSH,D={h∈H∣(∃s∈S)(∃g∈G)(g≥gh≥gs)}
2.3.3 候选消除学习算法
- Candidate-Elimination算法计算出的变型空间,包含H中与训练样例一致的所有假设。
- 算法得到的变型空间能够收敛到描述目标概念的假设的条件是:
- 在训练样例中没有错误;
- 确实包含描述目标概念的正确假设。
Candidate-Elimination算法
将G初始化为H中最一般的假设;
将S初始化为H中最特殊的假设;
对每个训练样例x:
若是x正例:
将S变为与x一致的最特殊的假设
从G中移除所有与x不一致的假设
若是x反例:
将G变为与x和S一致的最一般的假设
输出假设h
2.4 归纳偏置
- 归纳推理的一个基本属性:学习器如果不对目标概念的形式做预先的假定,它从根本上无法对未见实例进行分类。这个预先的假定称为归纳偏置(Inductive Bias)。
- 归纳学习算法能够对未见数据进行分类,是因为它们在选择一致的假设的过程中隐含的归纳偏置。候选消除算法中的偏置为:目标概念可以在假设空间中找到。
- 归纳偏置:考虑对于实例集合
X
的概念学习算法
L 。令 c 为X 上定义的任一概念,并 令 Dc={⟨x,c(x)⟩} 为 c 的任意训练样例集合。令L(xi,Dc) 经过数据 Dc 的训练后 L 赋予实例xi 的分类。 L 的归纳偏置是最小断言集合B ,它使任意目标概念 c 和相应的训练样例Dc 满足:
(∀xi∈X)[(B∧Dc∧xi)⊢L(xi,Dc)] - 一种算法如果有偏性越强,那它的归纳能力越强,可以分类更多的未见实例。