关联规则:评定规则的标准
支持度:规则前项LHS和规则后项RHS所包括的商品都同时出现的概率,LHS和RHS商品的交易次数/总交易次数。
置信度:在所有的购买了左边商品的交易中,同时又购买了右边商品的交易机率,包含规则两边商品的交易次数/包括规则左边商品的交易次数。
提升度(有这个规则和没有这个规则是否概率会提升,规则是否有价值):无任何约束的情况下买后项的交易次数/置信度。提升度必须大于1才有意义。
一、Aprioir(利用以前的频繁集产生候选集,从长度为1到2到3...)
利用性质的关键:一个itemsets要想频繁,它所有子集必须频繁,反过来如果有子集不频繁,它的超集也就不可能频繁。所有就可以先找短的,长度为1的都不频繁,包含这个的长的item就不可能频繁,如果长度为1的频繁,就可以继续通过这个找潜在的候选集。
多遍数据库扫描是昂贵的,挖掘长模式需要很多遍扫描,并产生大量候选。Aprioir具有的性质:频繁项集的所有非空子集也必须是频繁的。向下闭包性,利用已满足支持度的频繁,进行组合,生成候选集,只有这些候选集才有可能
首先找频繁一项集(满足最小支持度要求的项集),在频繁一项集的基础上寻找频繁二项集,再依次寻找频繁三、四等等,直到没有满足最小支持度的项集。
(1)怎样寻找候选集呢?selfjoining+pruning
假设L3={abc, abd, acd, ace, bcd} 将频繁集的字母排序
Selfjoining: 共享前缀的abc,abd合并成abcd; ace,acd合并成acde