数据挖掘:关联规则

关联规则

关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。
在这里插入图片描述

频繁项集:经常出现在一块的物品的集合。
关联规则:物品之间存在的关系。

置信度和支持度

支持度:数据集中包含该项集的记录所占的比例。
在这里插入图片描述置信度:对于给定的规则 X→Y,置信度越高,Y 在包含 X 的事务中出现的可能性就越大;
在这里插入图片描述

Apriori 算法

Apriori算法利用频繁项集生成关联规则。它基于频繁项集的子集也必须是频繁项集的概念。频繁项集是支持值大于阈值(support)的项集。

Apriori算法就是基于一个先验:如果某个项集是频繁的,那么它的所有子集也是频繁的。

算法流程:

输入:数据集合D,支持度阈值𝛼
输出:最大的频繁k项集
1)扫描整个数据集,得到所有出现过的数据,作为候选频繁1项集。k=1,频繁0项集为空集。
2)挖掘频繁k项集
	i)扫描数据计算候选频繁k项集的支持度
   	ii)去除候选频繁k项集中支持度低于阈值的数据集,得到频繁k项集。如果得到的频繁k项集为空,则直接返回频繁k-1项集的集合作为算法结果,算法结束。如果得到的频繁k项集只有一项,则直接返回频繁k项集的集合作为算法结果,算法结束。
    iii)基于频繁k项集,连接生成候选频繁k+1项集。
3)令k=k+1,转入步骤2。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值