第八章基于规则的分类

最新推荐文章于 2024-04-22 14:19:56 发布

Coding懒懒

最新推荐文章于 2024-04-22 14:19:56 发布

阅读量9k

点赞数 1

分类专栏：数据挖掘文章标签：数据挖掘

数据挖掘专栏收录该内容

14 篇文章 2 订阅

订阅专栏

1、使用IF-THEN规则分类

规则是表示信息或少量知识的好方法。基于规则的分类器使用一组IF—THEN规则进行分类。一个IF—THEN规则是一个如下的表达式：

IF条件THEN结论

规则R1是一个例子：

R1:IF age=youth AND student=yes THEN buys_computer=yes

也可以写作

R1:(age=youth)^(student=yes)=>(buys_computer=yes)

规则的“IF”部分（或左部）称为规则的前件或前提。规则前件由一个或多个用逻辑连接词AND连接的属性测试（例如，age=youth和student=yes）组成。

THEN部分（或右部）是规则的结论。规则的结论包含一个类预测（在这个例子中，预测顾客是否购买计算机）。

对于给定的元组，如果规则前件中的条件（即所有的属性测试）都成立，则我们说规则前件被满足，并且规则覆盖该元组。

规则R可以用它的覆盖率和准确率来评估。给定类标记的数据集D中的一个元组X，设n_covers为覆盖的元组数，n_correct为R正确分类的元组数，可以将R的覆盖率和准确率定义为：

也就是说，规则的覆盖率是规则覆盖的元组的百分比。对于规则的准确率，考察在它覆盖的元组中，可以被规则正确分类的元组所占的百分比。

让我们来看看如何使用基于规则的分类来预测给定元组X的类标号。

如果规则被X满足，则称该规则被触发。例如，假设有：X=(age=youth,income=medium,student=yes,credit_rating=fair)想根据buys_computer对X分类。X满足R1，触发该规则。

如果R1是唯一满足的规则，则该规则被激活，返回X的分类预测。注意，触发并不总意味着激活，因为可能有多个规则被满足！

可能存在的问题：（1）如果多个规则被触发，但是它们指定了不同的类（2）没有一个规则被X满足。

解决办法：（1）如果多个规则被触发，则需要一种解决冲突的策略来决定激活哪一个规则，并对X指派它的类预测。由许多可能的策略。我们考察两种，即规模序和规则序。

规模序：把最高优先权赋予具有“最苛刻”要求的被触发的规则，其中苛刻性用规则前件的规模度量。也就是说，激活具有最多属性测试的被触发的规则。

规则序：预先确定规则的优先次序。这种序可以是基于类的或基于规则的。

基于类的序：类按“重要性”递减排序，如按普遍性的降序排序。作为选择，它们也可以根据每个类的误分类代价排序。每个类中的规则（可能有很多）是无序的，当然，它们也不必要有序，因为它们都预测相同的类，所以不会存在冲突问题。

基于规则的序：根据规则质量的度量，如准确率、覆盖率或规模（规则前件中属性测试数），或者根据领域专家的建议，把规则组织成一个优先权列表。在使用规则排序时，规则集称为决策表。使用规则序，最先出现在决策表中的被触发的规则具有最高优先权，因此激活它的类预测。满足X的其他规则都被忽略。大部分基于规则的分类系统都使用基于类的规则序策略。

（2）没有一个规则被X满足的条件下，我们可以建立一个省缺或默认规则（条件为空），根据训练集指定一个默认类。这个类可以是多数类，或者不被任何规则覆盖的元组的多数类。当且仅当没有其他规则覆盖X时，最后才使用默认规则（该规则被激活）。

下面我们考察如何建立基于规则的分类器（也就是，如何获取IF-THEN规则）？

2、由决策树提取规则

与决策树相比，IF-THEN规则可能更容易理解，特别是当决策树非常大时更是如此。

为了从决策树提取规则，对每条从根到树叶节点的路径创建一个规则。

（1）前件：沿着给定路径上的每个分裂准则的逻辑AND形成规则的前件。

（2）后件：存放类预测的树叶结点形成规则的后件。

由于这些规则直接从树中提取，所以它们是互斥的和穷举的。

（1）互斥意味着不可能存在规则冲突，因为没有两个规则被相同的元组触发。（每个树叶有一个并且任何元组都只能映射到一个树叶。）

（2）穷举意味着对于每种可能的属性—值组合都存在一个规则，使得该规则集不需要默认规则。因此，规则的序不重要—它们是无序的。

由于每个树叶一个规则，所以提取的规则集并不比对应的决策树简单多少！在某些情况下，提取的规则可能比原来的树更难解释（比如，子树中存在重复和复制）。提取的规则集可能很大并且难以理解，因为某些属性测试可能是不相关的和冗余的。尽管很容易从决策树提取规则，但是可能需要做更多的工作，对结果规则集进行剪枝。

“如何修剪规则集？”对于给定的规则前件，不能提高规则的估计准确率的任何条件都可以剪掉（即删除），从而泛化该规则。

3、使用顺序覆盖算法的规则归纳

顺序覆盖算法可以直接从训练数据集提取IF-THEN规则（即不必产生决策树），是最广泛使用的挖掘分类规则析取集的方法。算法的名字源于规则被顺序地学习（一次一个），其中给定类的每个规则覆盖该类的许多元组（并且希望不覆盖其他类的元组）。

有许多流行的顺序覆盖算法，包括AQ，CN2和最近提出的PIPPER。

算法的一般策略如下：一次学习一个规则，每学习一个规则，就删除该规则覆盖的元组，并在剩下的元组上重复该过程。

基本顺序覆盖算法显示在下图中。这里，一次为一个类学习规则。理想情况下，在为C类学习规则时，我们希望覆盖C类的所有（或许多）训练元组，并且没有（或很少）覆盖其他类的元组。这样，学习的规则应该具有高准确率。规则不必是高覆盖率的。这是因为每个类可以有多个规则，使得不同的规则可以覆盖同一个类中的不同元组。该过程继续，直到满足某终止条件，如不再有训练元组，或返回规则的质量低于用户指定的阈值。

“如何学习规则？”典型地，规则以从一般到特殊的方式增长（见下图）。我们可以将这想象成束状搜索，从空规则开始，然后逐渐向它添加属性测试。添加的属性测试作为规则前件条件的逻辑合取。

图中，为了学习“accept”类的规则，从最一般的规则开始，即从规则前件条件为空的规则开始。该规则是：IF THEN loan_decision=accept 然后，我们考虑每个可以添加到该规则中的可能属性测试。这些可以从参数Att-vals导出，该参数包含属性及其相关联值的列表。例如，对于属性-值对（att，val），可以考虑诸如att=val，att<=val，att>val等测试。

通常，训练数据包含许多属性，每个属性都有一些可能的值。找出最优规则集是昂贵的。或者，Learn_One_Rule采用一种贪心的深度优先策略。每当面临添加一个新的属性测试（合取项）到当前规则时，它根据训练样本选择最能提高规则质量属性的测试。

1.规则质量的度量

Learn_One_Rule需要度量规则的质量。每当考虑一个属性测试时，它必须检查，看添加该测试到规则的条件中是否导致一个改进的规则。

举例验证准确率本身并非规则质量的可靠估计。

考虑下图中所示的两个规则。这两个规则都是loan_decision=accept类的规则。使用“a”表示“accept”类的元组，“r”表示“reject”类的元组。规则R1正确地对它所覆盖的40个元组中的38个进行了分类，规则R2只覆盖了2个元组，它正确地进行了分类。它们的准确率分别为95%和100%。这样，R2比R1具有更高的准确率。然而，由于小覆盖率，R2不是更好的规则。