概念学习和一般到特殊序

假设空间:

	机器学习中可能的函数构成的空间称为“假设空间”。。
	监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。假设空间的确定意味着学习的范围的确定。
	监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。假设空间的确定意味着学习范围的确定。

  从特殊的训练样例中归纳出一般函数是机器学习的中心问题。那么什么是概念学习呢?给定某一类别的若干正例和反例,从中获得该类别的一般定义。概念学习也可以看做是一个搜索问题的过程,它在预定义的假设空间中搜索假设,使其与训练样例有最佳的拟合度。多数情形下,为了高效的搜索,可以利用假设空间中一种自然形成的结构——即一般到特殊偏序结构。

概念学习简介

  许多机器学习问题涉及到从特殊训练样例中得到一般概念。比如人们不断学习的一些一般概念和类别包括:鸟类、汽车、勤奋的学习等。每个概念可以被看做一个对象或者事件的集合,它是从更大的集合中选取的子集(如从动物的集合中选取鸟类),或者是在这个较大的集合中定义的不二函数(如在动物集合中定义的函数,它对鸟类产生ture,对其它动物产生false)。

  给定一样例集合以及每个样例是否属于某一概念的标注,怎样自动推断出该概念的一般定义。这一问题被称为概念学习,或者称从样例中逼近布尔值函数

概念学习的定义:

概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。

概念学习任务

  我们有如下的例子,本例的目标概念是:“Aldo进行水上运动的日子”。表格描述了一系列日子的样例,每个样例表示为属性的集合。属性EnjiySport表示这一天Aldo是否乐于进行水上运动。这个任务的目的是基于某天的个属性,以预测出改天EnjoySport的值

EnjoySport概念学习任务

- 任务T:基于某天的属性,预测当天Aldo是否进行水上运动
- 性能标准P:预测的准确率
- 训练经验E:往日一系列日子的样例

目标概念EnjoySport的正例和反例(表1)

ExampleSkyAirTempHumidityWindWaterForecastEnjoySport
1SunnyWarmNormalStrongWarmSameYes
2SunnyWarmHighStrongWarmSameYes
3RainyColdHighStrongWarmChangeNo
4SunnyWarmHighStrongCoolChangeYes

  在这种情况下,采取什么样的形式来表示假设呢?可以优先考虑一个较为简单的形式,即实例的各属性约束的合取式。在这里,可以令每个假设为6个约束的向量,这些约束指定了属性Sky、AirTemp、Humidity、Wind、Water、Forecast的值,每个属性可取值为:

  • 由“?”表示任意本属性可接受的值。
  • 明确指定的属性的值如(Warm)。
  • 由" ∅ \varnothing "表示不接受任何值。

  如果某些实例x满足假设h的所有约束,那么h将x分类为正例(h(x) = 1)。比如,为判定Aldo只在寒冷和超市的日子里进行水上运动(并且与其他属性无关),这样的假设可以表示为下面的表达式:
⟨ ? , C o l d , H i g h , ? , ? , ? ⟩ \langle?,Cold,High,?,?,?\rangle ?,Cold,High,?,?,?
  最一般的假设是每一天都是正例,可以表示为:
⟨ ? , ? , ? , ? , ? , ? ⟩ \langle?,?,?,?,?,?\rangle ?,?,?,?,?,?
  而最特殊的假设是每一天都是反例,可以表示为
⟨ ∅ , ∅ , ∅ , ∅ , ∅ , ∅ ⟩ \langle\varnothing,\varnothing,\varnothing,\varnothing,\varnothing,\varnothing\rangle ,,,,,
  综上所述,EnjoySport这个概念学习任务需要学习的是使EnjoySport=yes的日子,并将其表示为属性约束的合取式。一般说,任何概念学习任务能被描述为:实例的集合、实例集合上的目标函数、候选假设的集合以及训练样例的集合。以这种一般形式定义的EnjoySport概念学习任务可以表示为:

- 已知
	- 实例集X:可能的日子,每个日子由下面的属性描述:
		- Sky(可能取值为Sunny, Cloudy, Rainy)
		- AirTemp{可能取值为Warm, Cold)
		- Humidity(可能取值为Normal, High)
		- Wind(可能取值为Strong, Weak)
		- Water(可能取值为Warm, Cool)
		- Forecast(可能取值为Same, Change)
	- 假设集:每个假设描述为6个属性:Sky, AirTemp, Humidity, Wind, 
	  Water, Forecast的值约束的合取。约束可以为"?"(表示接受任意值), "∅"
	  (表示拒绝所有值),或一特定值。
	- 目标概念c:EnjoySport:X→{0,1}
	- 训练样了集D:目标函数的正例和反例(表1)
- 求解:
	- H中的一假设h,使对于X中任意x, h(x) = c(x)

术语的定义

  概念定义在一个实例集合之上,这个集合表示为X。在本例中,X是所有可能的日子,每个日子由Sky, AirTemp, Humidity, Wind, Water, Forecast六个属性表示。待学习的概念或者函数称为目标概念,记作c。一般来说,c可以是定义在实例集X上的任意布尔函数,即 c : X → { 0 , 1 } c:X\rightarrow\{0, 1\} c:X{0,1}。在这个例子里,目标概念对应于属性EnjoySport的值,即当EnjoySport = Yes时,c(x) = 1,当EnjouSport = No时,c(x) = 0。

  在学习目标概念时,必须提供一套训练样例,每个样例为X中的一个实例x以及它的目标概念值c(x)。对于c(x) = 1的实例被称为正例,或者称为目标概念的成员。对于c(x) = 0的实例为反例,或者称为非目标概念的成员。经常可以用序偶 ⟨ x , c ( x ) ⟩ \langle x,c(x)\rangle x,c(x)来描述训练样例,表示其包含了实例x和目标概念值c(x)。符号D用来表示训练样例的集合。

  一旦给定目标概念c的训练样例集,学习器面临的问题就是假设或者估计c。使用符号H来表示所有可能假设的集合,这个集合才是为确定目标概念所考虑的范围(即假设空间)。通常H依赖设计者所选择的假设表示而定。H中的每个假设h表示X上定义的布尔函数,即 h : → { 0 , 1 } h:\rightarrow\{0,1\} h:{0,1}。机器学习的目标就是寻找一个假设h,使对于X中的所有x,h(x) = c(x)。

归纳学习假设

  机器学习的任务是在整个实例集合X上确定与目标概念c相同的假设h,然而我们对于c仅有的信息只是它在训练样例上的值。因此,归纳学习算法那最多只能保证输出的假设能与训练样例相拟合。如果没有更多的信息,我们只能假定,对于未见实例最好的假设就是与训练数据最佳拟合的假设。这是归纳学习的一个基本假定。

归纳学习假设

	任一假设如果在足够大的训练样例集中很好地逼近目标函数,它也能在未见实
例中很好地逼近目标函数。

作为搜索的概念学习

  概念学习可以看做是一个搜索的过程,范围是假设的表示所隐含定义的整个空间。搜索的目标是为了寻找能最好地拟合训练样例的假设。必须注意到,当假设的表示形式选定后,那么也就隐含地为学习算法确定了所有假设的空间。这些假设是学习程序所能表示的,也是它能够学习的。考虑在EnjoySport学习任务中的实例集合X和假设集合H。如果属性Sky有3种可能的值,而AirTemp. Humidity, Wind, Water, Forecast都只有两种可能的值,则实例空间X包含了 3 × 2 × 2 × 2 × 2 × 2 = 96 3\times2\times2\times2\times2\times2 = 96 3×2×2×2×2×2=96种不同的实例。类似的计算可得,在假设空间H中,有 5 × 4 × 4 × 4 × 4 × 4 = 5120 5\times4\times4\times4\times4\times4=5120 5×4×4×4×4×4=5120种语法不同的假设(每一个属性除了特殊值外,还增加了"?", “ ∅ \varnothing ”)。然而,注意到包含有∅符号的假设代表空实例集合,即它们将每个实例都分类为反例。因此,语义不同的假设只有 1 + 4 × 3 × 3 × 3 × 3 × 3 = 973 1 + 4\times3\times3\times3\times3\times3=973 1+4×3×3×3×3×3=973种。这里的EnjoySport例子是一个非常简单的学习任务,它的假设空间相对较小且有限。多数实际的学习任务包含更大的、有时是无限大的假设空间。

  如果把学习看作是一个搜索问题,那么很自然,对学习算法的研究需要考察假设空间搜索的不同策略。特别引起我们兴趣的算法应该能有效地搜索非常大的或者无限大的假设空间,以找到最佳拟合训练数据的假设。

假设的一般到特殊序

  许多概念学习算法中,搜索假设空间的方法依赖于一种针对任意概念学习都很有效的结构:假设的一般到特殊序关系。利用假设空间的这种自然结构,我们可以在无线的假设空间中进行彻底的搜索,而不需要明确地列举所有的假设。为说明一般到特殊序关系,考虑以下两个假设:
h 1 = ⟨ S u n n y , ? , ? , S t r o n g , ? , ? ⟩ h_1=\langle Sunny,?,?,Strong,?,?\rangle h1=Sunny,?,?,Strong,?,?
h 2 = ⟨ S u n n y , ? , ? , ? , ? , ? ⟩ h_2=\langle Sunny,?,?,?,?,?\rangle h2=Sunny,?,?,?,?,?
  哪些实例可被 h 1 h_1 h1 h 2 h_2 h2划分为正例?由于 h 2 h_2 h2包含的实例约束较少, 它划分出的正例也较多。实际上,任何被 h 1 h_1 h1划分为正例的实例都会被 h 2 h_2 h2划分为正例。因此,我们说 h 2 h_2 h2 h 1 h_1 h1更一般。

  直观上的“比…更一般”这种关系可以有如下精确定义:首先,对X中的任意实例x和H中的任意假设h,我们说当且仅当h(x) = 1时x满足h。现在以实例集合的形式定义一个more_general_than_or_equal_to的关系:
给 定 假 设 h j 和 h k , h j   m o r e _ g e n e r a l _ t h a n _ o r _ e q u a l _ t o   h k , 当 且 仅 当 任 意 一 个 满 足 h k 的 实 例 同 时 也 满 足 h j 。 给定假设h_j和h_k,h_j\ more\_general\_than\_or\_equal\_to\ h_k,当且仅当任意一个满足h_k的实例同时也满足h_j。 hjhk,hj more_general_than_or_equal_to hk,hkhj

定义:
令 h j 和 h k 为 在 X 上 定 义 的 布 尔 函 数 。 称 h j   m o r e _ g e n e r a l _ t h a n _ o r _ e q u a l _ t o   h k ( 记 作 h j ≥ g h k ) , 当 且 仅 当 ( ∀ x ∈ X ) [ ( h k ( x ) = 1 ) → ( h j ( x ) = 1 ) ] 令h_j和h_k为在X上定义的布尔函数。称h_j\ more\_general\_than\_or\_equal\_to\ h_k(记作h_j\geq_gh_k),当且仅当(\forall x \in X)[(h_k(x)=1)\rightarrow (h_j(x) = 1)] hjhkXhj more_general_than_or_equal_to hk(hjghk)(xX)[(hk(x)=1)(hj(x)=1)]

  有必要考虑一假设严格地比另一假设更一般的情形。因此,我们说 h j 严 格 的 m o r e _ g e n e r a l _ t h a n   h k h_j严格的more\_general\_than\ h_k hjmore_general_than hk(写作 h k > g h k h_k>_gh_k hk>ghk),当且仅当 ( h j ≥ g h k ) ∧ ( h k ≱ g h j ) (h_j\geq_gh_k)\land(h_k\ngeq_gh_j) (hjghk)(hkghj)。最后,还可以定义逆向的关系“比…更特殊”为 h j   m o r e _ s p e c i f i c _ t h a n   h k h_j\ more\_specific\_than\ h_k hj more_specific_than hk,当 h k   m o r e _ g e n e r a l _ t h a n   h j h_k\ more\_general\_than\ h_j hk more_general_than hj

   ≥ g \geq_g g关系很重要,因为它在假设空间H上对任意概念学习问题提供了一种有效的结构。

FIND-S:寻找极大特殊假设

  如何使用 m o r e _ g e n e r a l _ t h a n more\_general\_than more_general_than 偏序来搜索与训练样例一直的假设呢?一种办法是从H中最特殊的假设开始,然后在该假设覆盖正例失败时将其一般化(当以假设能正确地划分一个正例时,称该假设覆盖正例)。使用偏序实现FIND-S算法的精确描述如下:

  1. 将h初始化为H重最特殊假设
  2. 对每个正例x
    • 对h的每个属性约束 a i a_i ai
      如果x满足 a i a_i ai,那么不做任何处理,否则将h中 a i a_i ai替换为z满足的下一个更一般约束
  3. 输入假设h。

  为了说明这一算法,假定给予学习器的一系列训练样例如下表1所示。FIND-S的第一步是将h初始化为H重最特殊的假设:
h ← ⟨ ∅ , ∅ , ∅ , ∅ , ∅ , ∅ ⟩ h\leftarrow \langle\varnothing,\varnothing,\varnothing,\varnothing,\varnothing,\varnothing\rangle h,,,,,

  在观察表1中第一个训练样例时,它刚好是个正例。这时的h太特殊了,h中的每一个 ∅ \varnothing 约束都不被该样例满足,因此,每个属性都被替换成能你和该例的下一个更一般的值约束,也就是这一样例的属性值本身:
h ← ⟨ S u n n y , W a r m , N o r m a l , S t r o n g , W a r m , S a m e ⟩ h\leftarrow\langle Sunny,Warm,Normal,Strong,Warm,Same\rangle hSunny,Warm,Normal,Strong,Warm,Same
  这个h仍旧太过特殊了,它把除了第一个样例以外的所有实例都划分为了反例。下一步,第二个训练样例(仍然为正例)迫使该算法进一步将h一般化。这次使用"?"代替h中不能被新样例满足的属性值,这样的假设变为:
h ← ⟨ S u n n y , W a r m , ? , S t r o n g , W a r m , S a m e ⟩ h\leftarrow\langle Sunny,Warm,?,Strong,Warm,Same\rangle hSunny,Warm,?,Strong,Warm,Same
  然后处理第三个训练样例,这是一个反例,因此h不变。实际上,FIND-S算法简单地忽略每一个反例,为什么呢?

  一般情况下,只要我们假定假设空间H确实包含真正的目标概念c,而且训练样例不包含错误,那么当前的假设h不需要因反例的出现而更改。原因在于当前假设h是H中与所观察到的正例相一致的最特殊的假设,由于假定目标概念c在H中,而且它一定是与所有正例一致的,那么c一定比h更一般,而目标概念c不会覆盖一个反例,因此h也不会覆盖一个反例。因此,对返利,h不需要做出任何的更改。

  接着完成FIND-S算法,第四个正例使得h更一般:
h ← ⟨ S u n n y , W a r m , ? , S t r o n g , ? , ? ⟩ h\leftarrow\langle Sunny,Warm,?,Strong,?,?\rangle hSunny,Warm,?,Strong,?,?

  FIND-S算法演示了一种利用 m o r e _ g e n e r a l _ t h a n more\_general\_than more_general_than 偏序来搜索假设空间的方法,这一搜索沿着偏序链,从较特殊的假设逐渐转移到较一般的假设。在每一步中,假设只在需要覆盖新的正例时被一般化。因此,每一步得到的假设都是在那一点上与训练样例一致的最特殊的假设。

FIND-S算法的重要特点是:对以属性约束的合取式描述的假设空间(如,EnjoySport中的H),FIND-S保证输出为H中与正例一致的最特殊的假设。只要正确的目标概念包含在H中并且训练数据都是正确的,最终的假设也与所有的反例一致。然而,这一学习算法仍然存在一些问题:

- 学习过程是否收敛到了正确的目标概念?虽然FIND-S找到了与训练数据一致的假
  设,但是没办法确定它是否找到了唯一合适的假设(即目标概念本身),或者说
  是否还有其它可能的假设。我们希望算法知道它能否收敛到目标概念,如果不能,
  至少要描述出这种不确定性。
 
- 为什么要用最特殊的假设?如果有多个与训练样例一直的假设,FIND-S只能找到
  最特殊的。为什么我们偏好最特殊的假设,而不选最一般的假设,亦或者一般程
  介于二者之间的某个假设。
  
  - 训练样例是否相互一致?在多数实际的学习问题中,训练数据中常出现某些错误
    或者噪声,这样的不一致的训练集会严重破坏FIND-S算法,因为它忽略了所有的
    反例。我们期望的算法至少能检测出训练数据的不一致性,并且最好能容忍这样
    的错误。
    
- 如果有多个极大特殊假设怎么办?在EnjoySport任务的假设语言H中,总有一个唯
  一的最特殊假设与训练数据一致。然而,对其他一些假设空间,可能有多个极大特
  殊假设。这种情况下,FIND-S必须被扩展,以允许其在选择怎样一般化假设的路
  径上回溯,以容纳目标假设位于偏序结构的另一分支上的可能性。更进一步,我们
  可以定义一个不存在极大特殊假设的假设空间。当然,这是一个理论问题而不是实
  践问题。

变形空间和候选消除算法

  概念学习的另一种途径即候选消除算法。FIND-S输出的假设只是H中能够你和训练样例的多个假设中的一个,而在候选消除算法中,输出的是与训练样例一致的所有假设的集合。候选算法在描述这一集合时不需要明确列举所有的成员,而这也归功于 m o r e _ g e n e r a l _ t h a n more\_general\_than more_general_than 偏序结构。在这里需要维护一个一致假设集合的简洁表示,然后在遇到新的训练样例时逐步精化这一表示。

  然而,候选消除算法和FIND-S算法都有共同的缺点,那就是它们在训练数据含有噪声时性能较差。

候选消除算法的表示

  候选消除算法寻找与训练样例一致的所有假设。为精确描述这一算法,这里先引入一些基本定义。首先,当一个假设能够正确分类一组样例时,我们称这个假设是与这些样例一致的。

定义: 一个假设h与训练样例集合D一致,当且仅当对D中每一个样例 ⟨ x , c ( x ) ⟩ \langle x, c(x)\rangle x,c(x)都有 h ( x ) = c ( x ) h(x)=c(x) h(x)=c(x).
C o n s i s t e n t ( h , D ) ≡ ( ∀ ⟨ x , c ( x ) ⟩ ∈ D )   h ( x ) = c ( x ) Consistent(h,D)\equiv(\forall\lang x,c(x)\rang\in D)\ h(x) = c(x) Consistent(h,D)(x,c(x)D) h(x)=c(x)

  注意,这里定义的一致与前面定义的满足是不同的。一个样例x在h(x) = 1时称为满足假设h,不论x是目标概念的正例还是反例。然而,这一样例是否与h 一致 则与目标概念有关,即是否h(x) = c(x)。

  候选消除算法能够表示与训练样例一致的所有假设。在假设空间中的这一子集被称为关于假设空间H和训练样例集合D的变型空间,因为它包含了目标概念的所有合理的变型。

定义: 关于假设空间H和训练样例集合D的变型空间,标记为 V S H , D VS_{H,D} VSH,D,是H中与训练样例集D一致的所有假设构成的子集。
V S H , D ≡ { h ∈ H ∣ C o n s i s t e n t ( h , D ) } VS_{H,D} \equiv\{h\in H|Consistent(h,D)\} VSH,D{hHConsistent(h,D)}

列表后消除算法

  显然,表示变型空间的一种方法是列出其所有成员。这样可产生一个简单的算法,称为列表后消除算法,其定义如下:

  1. 变型空间 V e r s i o n S p a c e ← VersionSpace\leftarrow VersionSpace包含了H中所有的假设
  2. 对每个训练样例 ⟨ x , c ( x ) ⟩ \lang x,c(x)\rang x,c(x),从变型空间中移除所有 h ( x ) ≠ c ( x ) h(x)\ne c(x) h(x)=c(x)的假设h
  3. 输出VersionSpace中的假设列表。

  列表后消除算法首先将变型空间初始化为包含H中所有的假设,然后从中去除与任一训练样例不一致的假设。包含候选假设的变型空间随着观察到的越来越多的样例而缩减,直到剩下一个(理想情况下)与所有样例一致的假设,这可能就是所要的目标概念。如果没有充足的数据使变型空间缩减到只有一个假设,那么该算法将输出一个集合,这个集合中所有的假设训练样例都一致。

  原则上,只要假设空间是有限的,就可以使用列表后消除算法。它具有很多的有点,如能得到与训练数据一致的所有假设。但是,这一算法要求非常繁琐地列出H中所有假设,这对于大多数实际的假设空间是不现实的要求。

变型空间的更简洁表示

  候选消除算法那与上面的列表后消除算法遵循着同样的原则。然而,它使用一种更简洁的变型空间表示法。在此,变型空间被表示为它的极大一般和极大特殊的成员。这些成员形成了一般和特殊边界的集合。这些边界在整个偏序结构中划分出变型空间。

  未说明变型空间的这种表示,再一次考虑EnjoySport概念学习问题。对于表1中给定的4个训练样例,FIND-S输出假设:
h = ⟨ S u n n y , W a r m , ? , S t r o n g , ? , ? ⟩ h=\lang Sunny,Warm,?,Strong,?,?\rang h=Sunny,Warm,?,Strong,?,?

  实际上,这只是H中与训练样例一致的所有六个假设之一。
⟨ S u n n y , W a r m , ? , S t r o n g , ? , ? ⟩ \lang Sunny,Warm,?,Strong,?,?\rang Sunny,Warm,?,Strong,?,?

⟨ S u n n y , ? , ? , S t r o n g , ? , ? ⟩ \lang Sunny,?,?,Strong,?,?\rang Sunny,?,?,Strong,?,?

⟨ S u n n y , W a r m , ? , ? , ? , ? ⟩ \lang Sunny,Warm,?,?,?,?\rang Sunny,Warm,?,?,?,?

⟨ ? , W a r m , ? , S t r o n g , ? , ? ⟩ \lang ?,Warm,?,Strong,?,?\rang ?,Warm,?,Strong,?,?

⟨ S u n n y , ? , ? , ? , ? , ? ⟩ \lang Sunny,?,?,?,?,?\rang Sunny,?,?,?,?,?

⟨ ? , W a r m , ? , ? , ? , ? ⟩ \lang ?,Warm,?,?,?,?\rang ?,Warm,?,?,?,?

这6个假设构成了与该数据集合和假设表示相对应的变型空间。变型空间包含了所有
6个假设,但是可以简单地用S和G来表示。箭头表示实例间的more_general_than关	
系。

  候选消除算法通过使用极大一般成员(G)和极大特殊成员(S)来表示变型空间。之给定这两个集合S和G,就可以列举出变形空间中的所有成员,方法是使用一般到特殊偏序结构来生成S和G集合之间的所有假设。

  可以直观地看出,使用极大一般和极大特殊集合表示变型空间的作法是合理的。下面我们精确地定义S和G这两个边界集合,并且证明它们确实代表了变型空间。

定义: 假设空间H和训练数据D的一般边界G是在H中与D相一致的极大一般成员的集合
G ≡ { g ∈ H ∣ C o n s i s t e n t ( g , D ) ∧ ( ¬ ∃ g ′ ∈ H ) [ ( g ′ > g g ) ∧ C o n s i s t e n t ( g ′ , D ) ] } G\equiv\{g\in H|Consistent(g,D)\land(\lnot\exists g'\in H)[(g'>_gg)\land Consistent(g',D)]\} G{gHConsistent(g,D)(¬gH)[(g>gg)Consistent(g,D)]}

定义: 假设空间H和训练数据D的特殊边界S是在H中与D相一致的极大特殊成员的集合
G ≡ { s ∈ H ∣ C o n s i s t e n t ( s , D ) ∧ ( ¬ ∃ s ′ ∈ H ) [ ( s > g s ′ ) ∧ C o n s i s t e n t ( s ′ , D ) ] } G\equiv\{s\in H|Consistent(s,D)\land(\lnot\exists s'\in H)[(s>_gs')\land Consistent(s',D)]\} G{sHConsistent(s,D)(¬sH)[(s>gs)Consistent(s,D)]}

  只要集合G和S被良好地鼎娱乐,它们就完全规定了变型空间。这里还可以证明,变型空间的确切组成是:G中包含的假设,S中包含的假设以及G和S之间偏序结构所规定的假设。

候选消除学习算法

  候选消除算法计算出的变型空间,包含H中与训练样例的观察序列一致的所有假设。开始,变型空间被初始化为H中所有假设的集合。即将G边界集合初始化为H重最一般的假设:
G 0 ← { ⟨ ? , ? , ? , ? , ? , ? ⟩ } G_0\leftarrow\{\lang?,?,?,?,?,?\rang\} G0{?,?,?,?,?,?}
  并将S边界集合初始化为最特殊的假设:
S 0 ← { ⟨ ∅ , ∅ , ∅ , ∅ , ∅ , ∅ ⟩ } S_0\leftarrow\{\lang\varnothing,\varnothing,\varnothing,\varnothing,\varnothing,\varnothing\rang\} S0{,,,,,}

  这两个边界集合包含了整个假设空间。因为H中与训练样例的观察序列一致的所有假设都比 S 0 S_0 S0更一般,且比 G 0 G_0 G0更特殊。算法在处理每个训练养老时,S和G边界集合分别被一般化和特殊化,从变型空间中逐步消去与样例不一致的假设。在所有训练样例处理完后,得到的变型空间就包含了所有与样例一致的假设,而且只包含这样的假设。算法描述如下:

将G集合初始化为H中极大一般假设
将S集合初始化为H中极大特殊假设

对每个训练样例d,进行以下操作:
- 如果d是正例
	- 从G中一曲所有与d不一致的假设
	- 对S中每个与d不一致的假设
		- 从s中移去
		- 把s的所有极小一般化式h加入到S中,其中h满足
			- h与d一致,且G的某个成员比h更一般
		- 从S中移去所有这样的假设:它比S中的另一假设更一般

- 如果d是反例
	- 从S中移去所有与d不一致的假设
	- 对G中每个与d不一致的假设g
		- 从G中移去g
		- 把g的所有技校特殊化式加入到G中,其中h满足
			- h与d一致,而且S的某个成员比h更特殊
		- 从G中移去所有这样的假设:它比G中另一假设更特殊

  注意算法汇总的操作,包括对给定假设的极小一般化式和极小特殊化式的计算,和确定那些非极小和非极大的假设。具体的实现当然依赖于实例和假设的表示方法。然而,只要这些操作被良好地定义了,该算法就可应用于任意概念学习和任意假设空间。

算法过程图解

S 0 : { ⟨ ∅ , ∅ , ∅ , ∅ , ∅ , ∅ ⟩ } S_0:\{\lang\varnothing,\varnothing,\varnothing,\varnothing,\varnothing,\varnothing\rang\} S0:{,,,,,}

S 1 : { ⟨ S u n n y , W a r m , N o r m a l , S t r o n g , W a r m , S a m e ⟩ } S_1:\{\lang Sunny,Warm,Normal,Strong,Warm,Same\rang\} S1:{Sunny,Warm,Normal,Strong,Warm,Same}

S 2 : { ⟨ S u n n y , W a r m , ? , S t r o n g , W a r m , S a m e ⟩ } S_2:\{\lang Sunny,Warm,?,Strong,Warm,Same\rang\} S2:{Sunny,Warm,?,Strong,Warm,Same}

G 0 , G 1 , G 2 : { ⟨ ? , ? , ? , ? , ? , ? ⟩ } G_0,G_1,G_2:\{\lang?,?,?,?,?,?\rang\} G0,G1,G2:{?,?,?,?,?,?}

训练样例
1. ⟨ S u n n y , W a r m , N o r m a l , S t r o n g , W a r m , S a m e ⟩ , E n j o y S p o r t = Y e s \lang Sunny,Warm,Normal,Strong,Warm,Same\rang,EnjoySport=Yes Sunny,Warm,Normal,Strong,Warm,Same,EnjoySport=Yes
2. ⟨ S u n n y , W a r m , H i g h , S t r o n g , W a r m , S a m e ⟩ , E n j o y S p o r t = Y e s \lang Sunny,Warm,High,Strong,Warm,Same\rang,EnjoySport=Yes Sunny,Warm,High,Strong,Warm,Same,EnjoySport=Yes

S 0 S_0 S0 G 0 G_0 G0为最初的边界集合,分别对应最特殊和最一般假设。训练样例1和2是的S边界变得更加一般,如FIND-S算法中的一样,这些样例对G边界没有影响。

S 2 , S 3 : { ⟨ S u n n y , W a r m , ? , S t r o n g , W a r m , S a m e ⟩ } S_2,S_3:\{\lang Sunny,Warm,?,Strong,Warm,Same\rang\} S2,S3:{Sunny,Warm,?,Strong,Warm,Same}

G 2 : { ⟨ ? , ? , ? , ? , ? , ? ⟩ } G_2:\{\lang?,?,?,?,?,?\rang\} G2:{?,?,?,?,?,?}
↓ \downarrow
G 3 : { ⟨ S u n n y , ? , ? , ? , ? , ? ⟩ , ⟨ ? , W a r m , ? , ? , ? , ? ⟩ , ⟨ ? , ? , ? , ? , ? , S a m e ⟩ } G_3:\{\lang Sunny,?,?,?,?,?\rang,\lang ?,Warm,?,?,?,?\rang,\lang?,?,?,?,?,Same\rang\} G3:{Sunny,?,?,?,?,?,?,Warm,?,?,?,?,?,?,?,?,?,Same}

训练样例:
3. ⟨ R a i n y , C o l d , H i g h , W a r m , C h a n g e ⟩ , E n j o y S p o r t = N o \lang Rainy,Cold,High,Warm,Change\rang,EnjoySport = No Rainy,Cold,High,Warm,Change,EnjoySport=No

样例3是一反例,它把 G 2 G_2 G2边界特殊化为 G 3 G_3 G3

S 3 : { ⟨ S u n n y , W a r m , ? , S t r o n g , W a r m , S a m e ⟩ } S_3:\{\lang Sunny,Warm,?,Strong,Warm,Same\rang\} S3:{Sunny,Warm,?,Strong,Warm,Same}
↓ \downarrow
S 4 : { ⟨ S u n n y , W a r m , ? , S t r o n g , ? , ? ⟩ } S_4:\{\lang Sunny,Warm,?,Strong,?,?\rang\} S4:{Sunny,Warm,?,Strong,?,?}

G 3 : { ⟨ S u n n y , ? , ? , ? , ? , ? ⟩ , ⟨ ? , W a r m , ? , ? , ? , ? ⟩ , ⟨ ? , ? , ? , ? , ? , S a m e ⟩ } G_3:\{\lang Sunny,?,?,?,?,?\rang,\lang ?,Warm,?,?,?,?\rang,\lang?,?,?,?,?,Same\rang\} G3:{Sunny,?,?,?,?,?,?,Warm,?,?,?,?,?,?,?,?,?,Same}
↓ \downarrow
G 4 : { ⟨ S u n n y , ? , ? , ? , ? , ? ⟩ , ⟨ ? , W a r m , ? , ? , ? , ? ⟩ } G_4:\{\lang Sunny,?,?,?,?,?\rang,\lang?,Warm,?,?,?,?\rang\} G4:{Sunny,?,?,?,?,?,?,Warm,?,?,?,?}

训练样例:
4. ⟨ S u n n y , W a r m , H i g h , S t r o n g , C o o l , C h a n g e ⟩ \lang Sunny,Warm,High,Strong,Cool,Change\rang Sunny,Warm,High,Strong,Cool,Change,EnjoySport = Yes

正例使S边界更一般,从 S 3 S_3 S3变为了 S 4 S_4 S4. G 3 G_3 G3的一个成员也必须删除,因为它不再比 S 4 S_4 S4边界更一般。

关于变型空间和候选消除的说明

候选消除算法是否会收敛到正确的假设

  由候选消除算法得到的变型空间能够收敛到描述目标概念的假设条件是:

1)在训练样例中没有错误
2)H中确实包含描述目标概念的正确假设。实际上,如果遇到新的训练样例,可以监测变型空间以判定其与真正的目标概念之间是否还有分歧,以及为精确确定目标概念还需要多少训练样例、当S和G边界集合收敛到单个的可确定的假设时,目标概念才真正获得。

  如果训练数据中包含错误会怎么样?假设第二个样例被错误地标记为一反例。在这种情况下,算法肯定会从变型空间中删除正确的目标概念。因为它会删除所有与样例不一致的假设,所以在遇到这一错误的反例时,算法将从变型空间中移去正确的概念。当然,如果训练数据足够大的话,我们会发现,最终S和G边界收敛到一个空的变型空间,我们从而得知训练数据有误。空的变型空间表示H中没有假设能够与样例一致。相似的情况会出现在另一个环境中:训练样例正确,但是目标概念不能由假设表示方法所描述(比如目标概念是某几个属性特种的析取,而假设空间只支持合取的形式)。

下一步需要什么样子的训练数据

  之前我们都假定训练样例由某个外部的施教者提供。倘若学习器可以主宰实验进程,下一步它要自己选择一个实例,然后从外界(自然界或者施教者)获得该实例的正确分类结果。这一场景可分为两种情况,一种是学习器在自然界中进行试验(如建造一座桥梁,然后让自然界来决定它是否牢固),或者在施教者的指导下学习(提出一座新桥梁的设计方案,让施教者来判断其是否牢固)。这里我们用查询来代表学习器建立的这个实例,然后由外界来对其进行分类。

  我们考虑目前从EnjoySport的4个样例上学习到的变型空间。这时学习器该如何提出一个较好的查询呢?一般情况下怎样去才采取一种好的查询策略?显然,学习器应试图在当前变型空间中选择假设,以进一步划分该空间。因此,需要选择的实例需满足:它能被变型空间中的一些假设划分为正例,另一些划分为反例。如
⟨ S u n n y , W a r m , N o r m a l , L i g h t , W a r m , S a m e ⟩ \lang Sunny,Warm,Normal,Light,Warm,Same\rang Sunny,Warm,Normal,Light,Warm,Same
  这一实例满足变型空间中6个假设的3个。如果施教者将实例划分为正例,变型空间的S边界就需要被一般化。相反,如果施教者划分其为反例,G边界就需要被特殊化。无论哪种情况,机器将能够学到更多的知识,以确定目标概念并将变型空间缩小到原来的一半。

  一般来说,概念学习的最优查询策略,是产生实例以满足当前变型空间中大约半数的假设,这样,变型空间的大小可以在遇到每个新的样例时减半,正确的目标概念就可在只用 [ log ⁡ 2 ∣ V S ∣ ] [\log_2|VS|] [log2VS]次实验后可以得到。然而,在一般情况下,可能无法构造出这样的精确分半的实例,这样查询的次数可能会大于 [ log ⁡ 2 ∣ V S ∣ ] [\log_2|VS|] [log2VS]次。

怎样去使用不完全学习的概念

  在EnjoySport的预测任务中,我们除了4个样例之外没有别的训练样例了,但是我们需要机器对未见过的实例进行分类。虽然此时变型空间仍然包含着多个假设,目标概念仍然没有学习到,但是它仍然有可能对新的样例进行一定可信度的分类。我们假定机器需要对下面四个实例进行分类。
待分类的数据(表2)

ExampleSkyAirTempHumidityWindWaterForecastEnjoySport
ASunnyWarmNormalStrongCoolChange?
BRainyColdNormalLightWarmSame?
CSunnyWarmNormalLightWarmSame?
DSunnyColdNormalStrongWarmSame?

  我们可以观察到,虽然实例A不在训练样例中,但当前变型空间中每个假设都将其分为正例。由于变型空间的所有假设一致同意实例A为正例,因此学习器将其划分为正例的可信度,与只有单个的目标概念时一样。不管变型空间中哪个假设最终成为目标概念,它都会将A划分为正例。

  进一步讲,我们不需要列举变型空间的所有假设,便知道每个假设都会将其划分为正例,这一条件当且仅当实例满足S的每个成员时成立。原因是变型空间中的其他每个假设都至少比S的某个成员更一般。由我们的 m o r e _ g e n e r a l _ t h a n more\_general\_than more_general_than 定义,如果新的实例满足S的所有成员,它也一定满足这些更一般的假设。

  同样,实例B被变型空间中的每个假设划分为反例,所以这个实例可以放心的被划分为反例,即使概念学习是不完全的。对这一条件进行测试的有效方法是,判断实例不满足G中的所有成员。原因是变型空间中的其它每个假设都至少比S的某个成员更特殊。由我们的 m o r e _ s p e c i f i c _ t h a n more\_specific\_than more_specific_than 定义,如果新的实例不满足G的所有成员,它也一定不满足这些更特殊的假设。

  实例C的情况有所不同。变型空间中半数的假设划分其为正例,半数划分为反例。因此,学习器无法可信地分类这一样例,除非提供更多的训练样例。可以注意到,实例C与前面提出的最优查询相同。因此我们可以这么说,最优分类歧义的实例也一定最能提供新的分类信息

  最后,实例D在变型空间中被两个假设分为正例,被其它4个假设分为反例。这个例子的分类可信度要比实例A和B小。投票选举要倾向于反例分类,所以我们可以输出拥有最大票数的分类,还可以附带一个可信度比例以表明投票的倾向程度。事实上,如果假定H中所有假设由相等的先验概率,那么投票的方法能得到新实例的最可能分类。进一步说,投正例票假设所占的比例可被看作在给定训练数据时,实例为正例的可能性。

归纳偏置

  在给定正确的训练样例并且保证初始假设空间包含目标概念时,候选消除算法可以收敛到目标概念。如果目标概念不在假设空间怎么办?是否可以设计一个包含所有假设的空间来解决这一困难?假设空间的大小对于算法推广到未见实例的能力有什么影响?假设空间的大小对所需训练样例的数量有什么影响?这些都是归纳推理中的一些基本问题。我们将在候选消除算法中分析这些问题,而在分析中得到的结论可以应用于任意的概念学习系统。

一个有偏的假设空间

  如果想保证假设空间包含目标概念,一个明显的方法是扩大假设空间,使每个可能的假设都被包含在内。再一次使用EnjoySport这个例子,其中我们将假设空间限制为只包含属性值的合取。由于这一限制,假设空间不能够表示最简单的析取形式的目标概念。如“Sky = Sunny或者Sky = Cloudy”。实际上,如果给定以下三个训练样例,它们来自于该析取式假设,我们的算法将得到一个空的变型空间
另一组实例(表3)

ExampleSkyAirTempHumidityWindWaterForecastEnjoySport
1SunnyWarmNormalStrongCoolChangeYes
2CloudyWarmNormalStrongCoolChangeYes
3RainyWarmNormalStrongCoolChangeNo

  之所以不存在与这3个样例一致的假设的原因是,与前两个样例一致,并且能在给定假设空间H中表示的最特殊的假设是:
S 2 : ⟨ ? , W a r m , N o r m a l . S t r o n g , C o o l , C h a n g e ⟩ S_2:\lang?,Warm,Normal.Strong,Cool,Change\rang S2:?,Warm,Normal.Strong,Cool,Change
  这一假设虽然是H中与样例一致的最特殊的假设,它仍然太过于一般化看:它将第3个样例错误的划分为了正例。问题在于,我们使学习器偏向于只考虑合取的假设,这里需要表示能力更强的假设空间。

无偏的学习器

  很显然,为了保证目标概念在假设空间中,需要提供一个假设看空间,它能表达所有的可教授概念。换言之,它能够表达实例集X的所有可能的子集。一般我们把集合X的所有子集的集合称为X的幂集

  例如在EnjoySport学习任务中,使用6种属性描述的实例空间X的大小为96。在这一实例集合上可以定义多少概念?换而言之,X的幂集大小是什么?一般来说,在集合X上定义的相异子集数目(即X幂集的大小)为 2 ∣ X ∣ 2^{|X|} 2X,其中|X|是X的元素数目。因此在这一实例空间上可定义 2 96 2^{96} 296,或者大约是 1 0 28 10^{28} 1028个不同的目标概念,这也是学习器所需要学习的目标概念数目。而合取假设空间只能表示973个假设——实在是一个偏置很大的假设空间。

  现在将EnjoySport学习任务重新定义为一种无偏的形式。方法是定义一个心的假设空间H’,它能表示实例的每一个子集,也就是把H’对应到X的幂集。定义H’的一种方法是,允许使用前面的假设的任意析取、合取和否定式。例如目标概念“Sky = Cloudy或Sky = Sunny”可以被描述为:
⟨ S u n n y , ? , ? , ? , ? , ? ⟩ ∨ ⟨ C l o u d y , ? , ? , ? , ? , ? ⟩ \lang Sunny,?,?,?,?,?\rang\lor\lang Cloudy,?,?,?,?,?\rang Sunny,?,?,?,?,?Cloudy,?,?,?,?,?

  给定这样的假设空间,我们就可以安全地使用候选消除算法,而不必担心无法表达目标概念。然而,虽然这个假设空间排除了表达能力的问题,它又产生了一个新的、同样困难的问题:概念学习算法将完全无法从训练样例中泛化!其原因如下,假定我们给学习器提供了3个正例 ( x 1 , x 2 , x 3 ) (x_1,x_2,x_3) (x1,x2,x3)以及两个反例 ( x 4 , x 5 ) (x_4,x_5) (x4,x5)。这时,变型空间的S边界包含的假设正好是三个正例的析取:
S : { ( x 1 ∨ x 3 ∨ x 3 ) } S:\{(x_1\lor x_3\lor x_3)\} S:{(x1x3x3)}
  因为这时能覆盖3个正例的最特殊的假设。相似的,G边界将由那些刚好能排除掉反例的那些假设组成。
G : { ¬ ( x 4 ∨ x 5 ) } G:\{\lnot(x_4\lor x_5)\} G:{¬(x4x5)}

  然而,问题在于,在这一非常具有表达力的假设表示方法中,S边界总是所有正例的析取式,G边界总是所有反例的析取的否定式。这样能够由S和G无歧义地分类的,只有已见到的训练样例本身。要想获得单个目标概念,就必须提供X中所有的实例作为训练样例。

  我们可能想到,避免这一问题的方法可以使用此部分学习的变型空间,有变型空间的所有成员投票决定分类。然而,能够产生一致投票的只有那些已经见过的训练样例。对于其它实例,投票没有任何效果:每一个未见过的实例都会被变型空间中刚好半数的假设划分为正例,而被另一半划分为反例。原因如下,若H是X的幂集,而x是某个未出现过的实例,则对于变型空间中覆盖x的假设h,必然存在另一假设h’,它与h几乎相等,只不过对x的分类不同。而且,如果h在变型空间中,那么h’也在,因为它对于以往训练样例的划分与h完全一样。

无偏学习的无用性

  以上的讨论说明了归纳推理的一个基本属性:学习器如果不对目标概念的形式做预先的假定,它从根本上无法对未见实例进行分类。实际上在我们原来的EnjoySport任务中,候选消除算法能够从训练样例中泛化,其唯一的原因就是它是有偏的,它隐含假定了目标概念由属性值的合取来表示。如果这一假定正确并且训练数据没有错误,那么对于新实例的分类也会是正确的。但是如果这个假定不正确,候选消除算法肯定会错误地分类X中的某些实例。

  由于归纳偏置学习需要某种形式的预先假定,或成为归纳偏置,我们可以用归纳偏置来描述不同学习方法的特征。现在来精确地定义归纳偏置。这里要获取的关键思想在于,学习器在从训练样例中泛化并推断新实例的分类过程中所采用的策略。因此考虑一般情况下任意的学习算法L以及为任意目标概念c提供的任意训练数据 D c = { ⟨ x , c ( x ) ⟩ } D_c = \{\lang x,c(x)\rang\} Dc={x,c(x)}。训练过程结束后,L需要对新的实例 x i x_i xi进行分类。令 L ( x i , D c ) L(x_i,D_c) L(xi,Dc)表示在对训练数据 D c D_c Dc学习后L赋予 x i x_i xi的分类(正例或者反例),我们可以如下描述L所进行的这一归纳推理过程:
( D c ∧ x i ) ≻ L ( x i , D c ) (D_c\land x_i)\succ L(x_i,D_c) (Dcxi)L(xi,Dc)
  这里的记号 y ≻ z y\succ z yz表示z从y归纳推理得到。例如,如果令L为候选消除算法, D c D_c Dc为表1中的训练数据, x i x_i xi为表2中第一个实例,啧归纳推理可得到结论
L ( x 1 , D c ) = ( E n j o y S p o r t = Y e s ) L(x_1,D_c)=(EnjoySport = Yes) L(x1,Dc)=(EnjoySport=Yes)
  由于L是以归纳学习算法,则一般情况下 L ( x i , D c ) L(x_i,D_c) L(xi,Dc)这一推论出的结果正确性无法证明;也就是说,分类 L ( x i , D c ) L(x_i,D_c) L(xi,Dc)并非从训练数据 D c D_c Dc接新实例 x i x_i xi中演绎派生。然而问题是,需要再 ( D c ∧ x i ) (D_c\land x_i) (Dcxi)上附加怎样的前提,以使 L ( x i , D c ) L(x_i,D_c) L(xi,Dc)能派生演绎。我们定义归纳偏置为这些附加前提的集合。更精确地说,我们定义L的归纳偏置为前提集合B,使所有的新实例 x i x_i xi满足:
( B ∧ D c ∧ x i ) ⊢ L ( x i , D c ) (B\land D_c\land x_i)\vdash L(x_i,D_c) (BDcxi)L(xi,Dc)
  这里的记号 y ⊢ z y\vdash z yz表示z从y中演绎派生(或者z可以由y证明得出)。这样,我们定义学习器的归纳偏置为附加的前提集合B,通过B使归纳推理充分地由演绎推理来论证。下面是该定义的总结:
定义: 考虑对于实例集合X的概念学习算法L。令c为X上定义的任一概念,并令 D c = { ⟨ x , c ( x ) ⟩ } D_c=\{\lang x,c(x)\rang\} Dc={x,c(x)}为c的任意训练样例集合。令 L ( x i , D c ) L(x_i,D_c) L(xi,Dc)表示经过数据 D c D_c Dc的训练后L赋予实例 x i x_i xi的分类。L的归纳偏置是最小断言集合B,它使任意目标概念c和相应的训练样例 D c D_c Dc满足:
( ∀ x i ∈ X ) [ ( B ∧ D c ∧ x i ) ⊢ L ( x i , D c ) } (\forall x_i\in X)[(B\land D_c\land x_i)\vdash L(x_i,D_c)\} (xiX)[(BDcxi)L(xi,Dc)}
  候选消除算法的归纳偏置是什么呢?首先确定这一算法的 L ( x i , D c ) L(x_i,D_c) L(xi,Dc):给定数据集 D c D_c Dc,候选消除算法首先计算变型空间 V S H , D C VS_{H,D_C} VSH,DC,然后在变型空间所包含的假设中投票,进行新实例 x i x_i xi的分类。这里假定产生 x i x_i xi的分类的条件是投票一致为正或为负,否则不进行分类。现在来回答什么是候选消除算法 L ( x i , D c ) L(x_i,D_c) L(xi,Dc)的归纳偏置的问题:很简单,就是 c ∈ H c\in H cH这个前提。有了这一前提,候选算法所执行的每一归纳推理都可以被演绎论证。

  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值