关联分析

本文深入探讨了关联分析的基本概念,包括项、项集、支持度、置信度和提升度,并介绍了Apriori算法的工作原理,包括两个核心定理、寻找频繁项集和生成强关联规则的步骤。此外,还提到了最小支持度和置信度的设定以及强关联规则和有效强关联规则的定义。Apriori算法在数据挖掘中用于发现有趣的关联规则,对于商业智能和市场篮子分析具有重要意义。
摘要由CSDN通过智能技术生成

项与项集:项是指分析数据中的一个对象(物品);项集是若干项构成的集合;

支持度:某(些)项集在数据集中出现的概率(包含物品甲的记录数量 /总的记录数量),体现某物品当前的流行程度;

置信度:关联规则{甲->乙}的置信度是指项集A发生,则项集B发生的概率(包含物品甲和乙的记录数量 / 包含甲的记录数量),体现关联规则的可靠程度(A发生时,B有大概率也会发生);

提升度:指项集A发生的条件下,同时项集B发生的概率,与项集B发生的概率之比,即关联规则{甲->乙}的置信度/乙的支持度,体现应用关联规则相对不应用关联规则的变化;若提升度大于1,说明该关联规则有正向价值;若提升度等于1则意味着物品甲和乙间没有关联;若提升度小于1那么意味着购买甲反而会减少乙的销量。

 

最小支持度:(用户/专家经验定义)表示项集在统计意义上的最低重要性,即项集需要达到一定的频繁/流行程度;

最小置信度:(用户/专家经验定义)表示关联规则的最低可靠性;

强关联规则:达到最小支持度阈值和最小置信度阈值;

有效的强关联规则:提升度大于1的强关联规则。

 

Apriori

两个定理

  • 如果一个项集是频繁的,那么其所有子集也一定是频繁的。 这个比较容易证明,因为某项集的子集的支持度一定不小于该项集;
  • 如果一个项集是非频繁的,那么其所有的超集也一定是非频繁的。 

步骤

  • 寻找频繁项集(筛选满足最小支持度的频繁项集):apriori根据如上定义,进行阈值判断并对搜索进行剪枝;
  • 从频繁项集中生成关联规则(筛选满足最小置信度的强规则):将每个频繁项集拆分成两个非空子集;同样apriori根据如上定义,进行阈值判断并对搜索进行剪枝。

 

Reference

关联分析算法的Apriori算法和FP-growth算法初探

Association Rules

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值