Apriori关联分析与FP-growth挖掘频繁项集

本文介绍了关联分析中的Apriori和FP-growth算法。Apriori算法通过支持度和可信度挖掘频繁项集,但大数据集下效率较低;FP-growth算法则通过构建FP树提高效率,但实现复杂。两种算法在挖掘频繁项集方面各有优缺点。
摘要由CSDN通过智能技术生成

1 问题引入

在去杂货店买东西的过程,实际上包含了机器学习的应用,这包括物品的展示方式、优惠券等。通过查看哪些商品经常被一起购买,商店可以了解用户的购买习惯,然后将经常被一起购买的物品摆放在一起,有助于商品的售卖。从大规模数据集中寻找物品建的隐含关系被称作关联分析。但是寻找物品不同的组合是一项十分耗时的任务,暴力搜索不不能解决这个问题,所以我们需要考虑更加智能的方式去完成这项艰巨的任务。

2 Apriori算法

2.1 频繁项集

关联分析是一种在大规模数据集中寻找某种特定关系的任务。这些关系有两种形式,频繁项集和或关联规则。频繁项集是指经常一块出现的物品的集合。但我们需要频繁的定义是什么,这里引入两个概念,支持度,一个项集的支持度被定义为数据集中包好该项集纪录所占的比例。可信度,针对关联规则定义,如下图。

{尿布}的支持度为4/5,{尿布,葡萄酒}的支持度为3/5。

{尿布}→{葡萄酒}的可信度定义为(尿布,葡萄酒的支持度)/(尿布的支持度),即3/4。

2.2 Apriori

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值