大数据编程语言scala：构建关联规则模型

最新推荐文章于 2024-06-25 00:46:03 发布

阿巴阿巴..

最新推荐文章于 2024-06-25 00:46:03 发布

阅读量487

点赞数 1

文章标签： scala intellij idea

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dkdudus/article/details/124404265

版权

本文介绍了大数据关联规则模型的构建，用于发现数据集中隐藏的有意义联系。关联规则分析涉及支持度和置信度的选择标准，常用于商品推荐、医疗诊断等领域。Apriori和FP-Growth是两种常用算法，Apriori虽简单但存在效率问题，而FP-Growth通过FP树策略提高了效率并适用于大规模数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

构建关联规则模型：

顾名思义，寻找两个事物的关联性

属于无监督学习方法
用来发现隐藏在大型数据集中的有意义的联系
主要应用于商品摆放、交叉销售、医疗诊断、气象预测、金融分析、网页挖掘等

在进行关联规则分析时，大型数据集中很多规则可能只是偶然发生的，不具有指导意义，为了从中寻找强度更高的关联，需要给定一定的选择标准，该标准主要有2个，分别是支持度和置信度

支持度：
Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小，说明A与B的关系不大；如果A与B同时出现的非常频繁，则说明A与B总是相关的。
置信度：
Confidence(A->B)=P(A | B)。置信度揭示了A出现时，B是否也会出现或有多大概率出现。如果置信度度为100%，则A和B可以捆绑销售了。如果置信度太低，则说明A的出现与B是否出现关系不大。

常用的关联规则算法有以下：

Apriori算法
FP-Growth算法

Apriori算法：
该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。