Chapter 2 概念学习和一般到特殊序

本文介绍了概念学习,包括从训练样例中推断概念定义的过程。重点讨论了作为搜索的概念学习,特别是Find-S算法寻找极大特殊假设的问题,以及变型空间和候选消除算法在处理训练数据错误和噪声中的应用。此外,还探讨了归纳偏置在学习过程中的重要性。
摘要由CSDN通过智能技术生成

第2章 概念学习和一般到特殊序

2.1 概念学习

  1. 概念学习(Concept Learning):给定一样例集合以及每个样例是否属于某一概念的标注,自动推断出该概念的一般定义。即从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。
  2. 相关术语:
    • 实例集合(Instance): X
    • 目标概念(Target Concept): c
    • 训练样例(Training Examples): x,c(x)
    • 正例(Positive Examples): {xX|c(x)=1}
    • 反例(Negative Examples): {xX|c(x)=0}
    • 假设空间:所有可能假设的集合 H
      机器学习的目标:寻找一个假设 h ,使对于 X 中的所有 x h(x)=c(x)
  3. 归纳学习的基本假定:任一假设如果在足够大的训练样例集中很好地逼近目标函数,它也能在未见实例中很好地逼近目标函数。

2.2 作为搜索的概念学习

假设的一般到特殊序
hj hk 为在 X 上定义的布尔函数。称 hj more_general_than_or_equal_to hk (记为 hjghk ),当且仅当 (xX)[(hk(x)=1)(hj(x)=1)] 。类似可定义more_general_than 、more_specific_than等。

2.3 Find-S算法寻找极大特殊假设

存在的问题:
* 无法确定是否找到唯一合适的假设(目标概念本身)
* 训练数据中的错误和噪声将严重破坏算法
* 可能存在多个极大特殊假设

Find-S 算法
    1. 将h初始化为H中最特殊的假设;  
    2. 对每个正例x:  
         对h的每个属性约束a_i:
            若x不满足a_i:
                 将h中的a_i变为x满足的更一般的约束  
   3. 输出假设h  

2.3 变型空间和候选消除算法

2.3.1 变型空间

  1. 一致:一个假设 h 与训练样例集合 D 一致 ,当且仅当对 D 中的每一个样例: x,c(x) 都有 h(x)=c(x)
    Consistent(h,D)(x,c(x)D)(h(x)=c(x))
  2. 变型空间:关于假设空间 H 和训练样例集 D 的变型空间,记为 VSH,D ,是 H 中与训练样例集 D 一致的所有假设构成的子集。
    VSH,D{hH|Consistent(h,D)}

2.3.2 变型空间的表示

  1. 一般边界(General Boundary):关于假设空间 H 和训练数据 D 的一般边界 G ,是在H中与 D 相一致的极大一般(Maximally General)成员的集合。
    G{gHConsistent(g,D)(∄gH)[(g>gg)Consistent(g,D)]}
  2. 特殊边界(Specific Boundary):关于假设空间 H 和训练数据 D 的特殊边界 S ,是在 H 中与 D 相一致的极大特殊(Maximally Specific)成员的集合。
    S{sHConsistent(s,D)(∄sH)[(s>gs)Consistent(s,D)]}
  3. 变型空间表示定理:令 X 为一任意的实例集合,H X 上定义的布尔假设集合,令 c:X{0,1} 为上定义的任一目标概念,并令 D 为任一训练样例集合。对所有的 X H c D 以及良好定义的 G S
    VSH,D={hH(sS)(gG)(gghgs)}

2.3.3 候选消除学习算法

  1. Candidate-Elimination算法计算出的变型空间,包含H中与训练样例一致的所有假设。
  2. 算法得到的变型空间能够收敛到描述目标概念的假设的条件是:
    • 在训练样例中没有错误;
    • 确实包含描述目标概念的正确假设。
Candidate-Elimination算法
                 
将G初始化为H中最一般的假设;
将S初始化为H中最特殊的假设;
对每个训练样例x:
    若是x正例:
        将S变为与x一致的最特殊的假设
        从G中移除所有与x不一致的假设
    若是x反例:
        将G变为与x和S一致的最一般的假设
输出假设h

2.4 归纳偏置

  1. 归纳推理的一个基本属性:学习器如果不对目标概念的形式做预先的假定,它从根本上无法对未见实例进行分类。这个预先的假定称为归纳偏置(Inductive Bias)。
  2. 归纳学习算法能够对未见数据进行分类,是因为它们在选择一致的假设的过程中隐含的归纳偏置。候选消除算法中的偏置为:目标概念可以在假设空间中找到。
  3. 归纳偏置:考虑对于实例集合 X 的概念学习算法 L 。令 c X 上定义的任一概念,并 令 Dc={x,c(x)} c 的任意训练样例集合。令 L(xi,Dc) 经过数据 Dc 的训练后 L 赋予实例 xi 的分类。 L 的归纳偏置是最小断言集合B,它使任意目标概念 c 和相应的训练样例 Dc 满足:
    (xiX)[(BDcxi)L(xi,Dc)]
  4. 一种算法如果有偏性越强,那它的归纳能力越强,可以分类更多的未见实例。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值