（《机器学习》完整版系列）第15章规则学习——15.9 归纳逻辑程序设计之最小一般泛化-CSDN博客

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129772070

文章介绍了归纳逻辑程序设计（ILP）的基本思想，它结合归纳法、逻辑和程序设计，用于从正例和反例中学习目标概念的描述。ILP关注的是规则的完备性和一致性，即正例完全被覆盖且反例不被覆盖。文中详细阐述了如何通过最小一般泛化（LGG）技术从具体事实泛化为一般规则，以及如何通过泛化和特化调整规则以达到完备性和一致性的要求。

摘要由CSDN通过智能技术生成

完备性与一致性有四种组合
泛化是具体化和实例化的反面，就是使其更一般化，从“多条具体事实（或规则）”中得到更一般化的“一条规则”，要求该规则不与这些事实矛盾或尽可能少矛盾。

归纳逻辑程序设计

前述引入函数和逻辑表达式嵌套，一方面提升了表达力，另一方面，由于嵌套的“无限”性和候选文字的组合爆炸，使得基于“比较”来选择文字成为不可能，必须换个思路处理。归纳逻辑程序设计（ILP）实际上是三方面（归纳、逻辑、程序设计）的结合体：将归纳法（如，归结和逆归结）用于一阶逻辑，并与程序设计方法结合（对应于PROLOG等逻辑程序设计语言）。

ILP主要关注“概念学习”，即学习一个关于目标概念的描述，任务抽象为：

给定

语言 $L$ （定义谓词 $p$ ）
背景知识 $B$ （有若干谓词 $q_i$ ）
训练集 $\varepsilon =\varepsilon^+\cup \varepsilon^-$ （分别为正例集和反例集）

寻找规则 $H$ ，使得 $H$ 对 $\varepsilon$ 和 $B$ 是完备的和一致的，简单地理解就是： $\varepsilon^+$ 正例全被覆盖、 $\varepsilon^-$ 反例一个也不被覆盖。这里是“硬”要求，也可以“软化”，如， $\varepsilon^+$ 正例“几乎全”被覆盖、 $\varepsilon^-$ 反例“几乎不”被覆盖。

规则 $H$ 覆盖示例 $e = (x, f (x))$ ，用式子表达为
$\begin{align} BK\wedge H\wedge x\vDash e \tag{15.22} \end{align}$
其中， $B K$ 为背景的逻辑表达式。

可以从置换的角度来看覆盖，规则 $H$ 覆盖示例 $e = (x, f (x))$ 是指：将 $H$ 作置换（即变量取示例中的常量，或者说将示例代入到规则中），其他未取值的变量存在置换为某常量使规则 $H$ 为真。即对规则 $H$ 进行两次置换（先进行限定为示例的置换，再对其余变量作不限定的置换），能使其产生真值。

覆盖的表达式为
$\begin{align} \mathrm{covers}(B,H,\varepsilon)=\{e\in \varepsilon\,|\,B\cup H\vDash e\} \tag{15.23} \end{align}$
注： $B\cup H$ 表示子句集之并，拼接成句子时，实际上是“且”（式(15.22)）。

则完备性是指
$\begin{align} \mathrm{covers}(B,H,\varepsilon^+)=\varepsilon^+ \tag{15.24} \end{align}$
一致性（相容性）是指
$\begin{align} \mathrm{covers}(B,H,\varepsilon^-)=\varnothing \tag{15.25} \end{align}$

完备性与一致性的四种组合情况，如图15.5 所示：(a)即完备又一致；(b)不完备但一致；©完备但不一致；(d)不完备也不一致。尽量追求(a)，但有时其他情况中的“不”占比很少或不关键时，也是可以接受的。
图15.5 完备性与一致性

图15.5 完备性与一致性

ILP模型的 $H$ 即式(15.5)，将函数调整为文字即
$\begin{align} A \leftarrow {B}_1\land {B}_2\land \cdots \land {B}_n \tag{15.26} \end{align}$
其中，左侧为规则头，是个原子公式（表示推出的结果），右侧为规则体，是有限个文字的合取。即规则 $H$ 为： “若 ${B}_1$ ， ${B}_2$ ， $\cdots$ ， ${B}_n$ 均成立，则 $A$ 也成立”（IF-THEN规则）。

寻找（搜索）可以“自下而上”泛化和“自上而下”特化两个方向考虑，同时，对获得的规则 $H$ 进行检查，若“太强”了（如，覆盖了些反例），则进行特化，若“太弱”了（如，一些正例未被覆盖），则进行泛化。下面讨论两类常用技术：最小一般泛化和逆归结。

最小一般泛化

可以采用自底向上的规则生成策略：具体事实 $\Rightarrow$ 泛化。

泛化是具体化和实例化的反面，就是使其更一般化，从“多条具体事实（或规则）”中得到更一般化的“一条规则”，要求该规则不与这些事实矛盾或尽可能少矛盾。
这里的泛化操作有：

(a) 将规则中的常量替换为逻辑变量；

(b) 删除规则体中的某个文字。

以【西瓜书第15.5.1节的示例】来讨论。这里重点讨论泛化操作(a)，即“最小一般泛化”（LGG）技术。

(i) 先取两个一阶公式： $\boldsymbol{r}_1$ 和 $\boldsymbol{r}_2$ ，对相同谓词的文字进行考察，如，谓词为“更好”，依图15.6 中到两条规则：

(1).规则一：同一位置，若值相同，则保持该值不变。记为： $\text{LGG}(t,t)=t$ ，三个 $t$ 依次为 $\boldsymbol{r}_1$ 、 $\boldsymbol{r}_2$ 和 $\boldsymbol{r}$ 中同一位置的 $t$ ，如图15.6 中的1。

(2).规则二：同一位置，若值不相同，则用变量替换。记为： $\text{LGG}(s,t)=\mathit{V}$ ，其中， $s,t,\mathit{V}$ 依次为 $\boldsymbol{r}_1$ 、 $\boldsymbol{r}_2$ 和 $\boldsymbol{r}$ 中同一位置的值，如图15.6 中的 $10,15,\mathit{Y}$ 。
图15.6 LGG泛化

图15.6 LGG泛化

(ii) 将得到的 $\text{LGG}(t,t)=t$ 和 $\text{LGG}(s,t)=\mathit{V}$ 作用于整个 $\boldsymbol{r}_1$ 和 $\boldsymbol{r}_2$ ，如，图15.6 中 $\text{LGG}(1,1)=1$ 和 $\text{LGG}(10,15)=\mathit{Y}$ 作用于整个 $\boldsymbol{r}_1$ 和 $\boldsymbol{r}_2$ ：即取相同谓词进行配对，再将得到的 $\text{LGG}$ 公式代入，示例图15.7 （谓词为“根蒂更蜷”），对其他谓词一样处理，即若满足LGG，则作替换。于是， $\boldsymbol{r}_1$ 和 $\boldsymbol{r}_2$ 变成了【西瓜书p.358最后一行和p.359第一行】。
在这里插入图片描述

图15.7 应用LGG示例1

(iii) 比较 $\boldsymbol{r}_1$ 和 $\boldsymbol{r}_2$ ，谓词“声音更沉”在 $\boldsymbol{r}_1$ 中有，而 $\boldsymbol{r}_2$ 中没有，说明它无关紧要，使用泛化操作(b)将其删除，则两条规则变为更一般化的一条了，取它为LGG的结果为 $\boldsymbol{r}$ ，即【西瓜书式(15.4)】。

(iv) 再增加一条 $\boldsymbol{r}_3$ 【西瓜书式(15.5)】，比较它与 $\boldsymbol{r}$ 的相同谓词，如，“根蒂更蜷”，如图15.8 所示。

图15.8 应用LGG示例2

(v) 将得到的LGG规则： $\text{LGG}(\mathit{Y},10)=\mathit{Y}_2$ 和 $\text{LGG}(1,2)=\mathit{X}$ 作用于 $\boldsymbol{r}$ 和 $\boldsymbol{r}_3$ ，并删去谓词不同的文字，则得到不包含常量的规则，即是一条最终的LGG，将其作为单条规则加入到规则集中。