基于关联规则的推荐-获取频繁项集

最新推荐文章于 2024-07-10 12:59:38 发布

置顶

Shiina_Orez

最新推荐文章于 2024-07-10 12:59:38 发布

阅读量3.8k

点赞数

分类专栏：数据分析文章标签：数据推荐算法

本文链接：https://blog.csdn.net/Shiina_Orez/article/details/78914483

版权

本文介绍了关联规则挖掘中的两个重要算法：Apriori和FP-Growth。Apriori利用先验原理降低计算复杂度，但存在多次数据库扫描的问题；FP-Growth则通过构建FP-Tree避免了此问题，更有效地生成频繁项集。

摘要由CSDN通过智能技术生成

关联规则：

关联规则是形如X->Y的蕴含表达式,其中X和Y是不相交的项集,即X∩Y=∅。

关联规则的强度可以用它的支持度(support)和置信度(confidence)来度量

支持度确定规则可以用于给定数据集的频繁程度（能够关联的次数）
置信度确定Y在包含X的交易中出现的频繁程度（能够成功关联的次数）

    支持度s和置信度c的形式定义如下：

        ||--> ·s(X->Y)=σ(X∪Y)/N
        ||--> ·c(X->Y)=σ(X∪Y)/σ(X)

        因此，大多数关联规则挖掘算法通常采用的一种策略是：

将关联规则挖掘任务分解为如下两个主要的子任务：

1.频繁项集的产生：

    其目标是发现满足最小值尺度阈值的所有项集，这些项集称作频繁项集(frequent itemset)

2.规则的产生：

    其目标是从上一步发现的频繁项集中提取所有高置信度的规则，这些规则称作强规则(strong rule)

显而易见。频繁项集的产生所需要的计算开销远大于产生规则所需的计算开销。

使用Apriori算法获取频繁项集

暴力挖取：

最容易想到的、也是最直接的关联关系挖掘的方法或许就是暴力搜索    (Brute-force)的方法。

但是暴力的计算量过大，一个包含k个项的数据集可能产生2^k-1个      频繁项集。

发现频繁项集的一种原始方法是确定每一个候选项集(candidate -itemset)的支持度计

最低0.47元/天解锁文章

Shiina_Orez

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录