关联分析(无监督的学习方法)

关联分析及其有关概念的介绍
关联分析:通过频繁项集或者关联规则来发现大数据集中元素之间有趣关系的一个工具集。关联分析的目标就是发现频繁项集和关联规则。

  • 频繁项集:经常出现在一起的元素集合。
    项集的支持度:数据集中包含该项集的记录所在的比例。
  • 关联规则:暗示两元素之间可能存在很强的关系。
    关联规则的可信度或者置信度:例如{尿布} -> {葡萄酒}这条关联规则的可信度被定义为“支持度({尿布,葡萄酒})/支持度({尿布})”

主要介绍下面两种算法:Apriori算法和FP-growth算法
Apriori原理:如果一个元素项集是不频繁的,那么包含该项集的超集也是不频繁的。(某个项集是频繁的,那么它的所有子集也是频繁的)

  • Apriori算法从单元素项集开始,通过组合满足最小支持度要求的项集来形成更大的集合。每次增加频繁项集的大小,Apriori算法都会重新扫描整个数据集。
  • FP-growth算法是一种用发现数据集中频繁模式的有效方法。只对数据集扫描两次。在第一次扫描的时候统计所有元素项出现的频率,第二遍扫描中只考虑那些频繁元素并构建一颗FP树,从FP树中抽取频繁项集。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值