6.1 基本概念
6.1.1频繁模式与关联规则
频繁模式:频繁地出现在数据集中的模式,包括:频繁项集、频繁序列模式、频繁结构模式
- 频繁项集:如频繁地同时出现在交易数据集中的商品的集合,如:面包和牛奶;
- 频繁序列模式:频繁地出现在数据集中的序列,如:用户先买数码相机,再买内存卡;
- 频繁结构模式:一个子结构可能涉及不同的结构形式,如子图、子树等,可能与项集或子序列结合在一起,频繁出现的子结构;
关联规则:频繁模式可以用关联规则表示,如:A->B [support=s,confidence=c]
- 支持度:同时包含A和B的事务的个数(绝对支持度)或者比率(相对支持度);
- 置信度:在包含项A的事务中,又包含B的事务的比率。
相对支持度: support(A->B)=P(A∪B) 绝对支持度:support(A->B)=count(A∪B)
置信度:confidence(A->B)=P(B|A)
- 频繁项集:项集I的相对支持度满足预定义的最小支持度阀值(绝对支持度满足最小支持度计数阀值),则I是频繁项集
- 如果关联规则满足最小支持度阀值和最小置信度阀值,则关联规则被认为是有趣、强关联的。
6.1.2关联规则的挖掘步骤:
- 找出所有的频繁项集:根据定义,