关联规则 -- 简介
关联规则挖掘是一种基于规则的机器学习算法,该算法可以在大数据库中发现感兴趣的关系。它的目的是利用一些度量指标来分辨数据库中存在的强规则。也即是说关联规则挖掘是用于知识发现,而非预测,所以是属于无监督的机器学习方法。
Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。
关联规则的一般步骤:
1、找到频繁集;
2、在频繁集中通过可信度筛选获得关联规则。
关联规则应用:
1、Apriori算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯,比如较有名的“尿布和啤酒”的故事;
2、网络安全领域中的入侵检测技术;
3、可用在用于高校管理中,根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作;
4、也可用在移动通信领域中,指导运营商的业务运营和辅助业务提供商的决策制定。
关联规则算法的主要应用是购物篮分析,是为了从大量的订单中发现商品潜在的关联。其中常用的一个算法叫Apriori先验算法。
关联规则 -- 概念
关联分析(Association Analysis):在大规模数据集中寻找有趣的关系。
频繁项集(Frequent Item Sets):经常出现在一块的物品的集合,即包含0个或者多个项的集合称为项集。
支持度(Support):数据集中包含该项集的记录所占的比例,是针对项集来说的。
置信度(Confidence):出现某些物品时,另外一些物品必定出现的概率,针对规则而言。
关联规则(Association Rules):暗示两个物品之间可能存在很强的关系。形如A->B的表达式,规则A->B的度量包括支持度和置信度
项集支持度:一个项集出现的次数与数据集所有事物数的百分比称为项集的支持度
支持度反映了A和B同时出现的概率,关联规则的支持度等于频繁集的支持度。
项集置信度:包含A的数据集中包含B的百分比
置信度反映了如果交易中包含A,则交易包含B的概率。也可以称为在A发生的条件下,发生B的概率,成为条件概率。
只有支持度和置信度(可信度)较高的关联规则才是用户感兴趣的。
关联规则 --支持度和置信度
1、支持度(Support)
支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。
支持度: P(A∪B),即A和B这两个项集在事务集D中同时出现的概率。
![](https://i-blog.csdnimg.cn/blog_migrate/875792f7b218d6c6d2ae56ffff1dadd1.png)
2、可信度(Confidence)
置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置信度度为100%,则A和B可以捆绑销售了。如果置信度太低,则说明A的出现与B是否出现关系不大。
置信度: P(B|A),即在出现项集A的事务集D中,项集B也同时出现的概率。
![](https://i-blog.csdnimg.cn/blog_migrate/e3a5d5e29850541d362ff25dad8acc0e.png)
3、设定合理的支持度和置信度
对于某条规则:(