SAS EM(一)关联分析
关联规则挖掘技术可以发现不同商品在消费者购买过程中的相关性。给定一组事务集合,其中每个事务是一个项目集;一个关联规则是形如 X ->Y 的蕴涵式, X 和 Y 表示项目集,且 X∩ Y = Φ, X 和 Y 分别称为关联规则 X-> Y 的前提和结论。规则 X->Y 的支持度(Support) 是事务集中包含 X 和 Y 的事务数与所有事务数之比,记为 support(X->Y) ;规则 X->Y 的置信度(Confidence) 是指包含 X 和 Y 的事务数与包含 X 的事务数之比, 记为 confidence ( X->Y) 。
支持度用于衡量所发现规则的统计重要性,而置信度用于衡量关联规则的可信程度。
一般来说,只有支持度和置信度均高的关联规则才可能是消费者感兴趣的、有用的规则。
以下例子参考https://blog.csdn.net/qq_36523839/article/details/82191677
(为了讲解关联分析中的支持度和置信度)
支持度:一个项集的支持度被定义为数据集中包含该项集的记录所占的比例,上图中,豆奶的支持度为4/5,(豆奶、尿布)为3/5。支持度是针对项集来说的,因此可以定义一个最小支持度,只保留大于最小支持度的项集。
可信度(置信度):针对如{尿布}->{葡萄酒}这样的关联规则来定义的。计算为 支持度{尿布,葡萄酒}/支持度{尿布},其中{尿布,葡萄酒}的支持度为3/5,{尿布}的支持度为4/5,所以“尿布->葡萄酒”的可行度为3/4=0.75,这意味着尿布的记录中,我们的规则有75%都适用。
Apriori 算法
对于上图,要计算 0,3 的支持度,直接的想法是遍历每条记录,统计包含有 0 和 3 的记录的数量,使用该数量除以总记录数,就可以得到支持度。而这只是针对单个集合 0,3. 要获得每种可能集合的支持度就需要多次重复上述过程。对于上图,虽然仅有4中物品,也需要遍历数据15次。随着物品数目的增加,遍历次数会急剧增加,对于包含 N 种物品的数据集共有 2^N−1 种项集组合。为了降低计算时间,研究人员发现了 Apriori 原理,可以帮我们减少感兴趣的频繁项集的数目。
Apriori 的原理:如果某个项集是频繁项集,那么它所有的子集也是频繁的。即如果 {0,1} 是频繁的,那么 {0}, {1} 也一定是频繁的。
这个原理直观上没有什么用&#x