频繁模式挖掘是数据挖掘中频繁项挖掘的基本目标。
另外包括闭频繁项模式和极大频繁项模式。
除了挖掘基本的频繁项集和关联外,还可以挖掘高级的模式形式,本章中分别介绍了:
- 多层关联
- 多维关联
- 量化关联规则
- 稀有模式
- 负模式
- 高维模式
- 模式压缩和近似模式
多层关联
多层关联涉及多个抽象层中的数据。例如戴尔电脑可以抽象到电脑,而索尼耳机可以抽象到耳机。这些可以使用多个最小支持度阈值挖掘。
对于多层关联模式,阈值的选择:
可以使用相同的阈值来挖掘关联模式;也可以逐层降低来挖掘关联模式,避免丢掉更低层中的关联模式包含的信息;可以使用所有层中最小的阈值。
多层关联中的副作用是,由于项之间的“祖先”关系,可能产生一些多个抽象层上的冗余规则。例如
买电脑=>买惠普打印机 (支持度8%,置信度70%) ——————(1.1)
买戴尔电脑=>买惠普打印机(支持度2%,置信度72%) ——————(1.2)
目前挖掘出了规则(1.1)和(1.2),那么这两个规则中,后一个子规则是有用的吗?
其中,电脑是戴尔电脑的“祖先”,规则(1.1)是规则(1.2)的“祖先”。
这里,给出一个冗余性定义:
规则R1是规则R2的祖先,如果R1能够通过将R2中的项用它在概念分层中的祖先替换得到,则R2冗余。
根据这个定义,一个规则被认为是冗余的,如果根据规则的祖先,它的支持度和置信度都接近于“期望值”。
在该例子中,规则(1.1)具有70%置信度和8%支持度,并且大约1/4的电脑是戴尔电脑(1/4为假设&#x