大数据编程语言scala:构建关联规则模型

本文介绍了大数据关联规则模型的构建,用于发现数据集中隐藏的有意义联系。关联规则分析涉及支持度和置信度的选择标准,常用于商品推荐、医疗诊断等领域。Apriori和FP-Growth是两种常用算法,Apriori虽简单但存在效率问题,而FP-Growth通过FP树策略提高了效率并适用于大规模数据。
摘要由CSDN通过智能技术生成

构建关联规则模型:

顾名思义,寻找两个事物的关联性

  • 属于无监督学习方法
  • 用来发现隐藏在大型数据集中的有意义的联系
  • 主要应用于商品摆放、交叉销售、医疗诊断、气象预测、金融分析、网页挖掘等

在进行关联规则分析时,大型数据集中很多规则可能只是偶然发生的,不具有指导意义,为了从中寻找强度更高的关联,需要给定一定的选择标准,该标准主要有2个,分别是支持度置信度

支持度:
Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。
置信度:
Confidence(A->B)=P(A | B)。置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置信度度为100%,则A和B可以捆绑销售了。如果置信度太低,则说明A的出现与B是否出现关系不大。

常用的关联规则算法有以下:

  • Apriori算法
  • FP-Growth算法

Apriori算法:
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值