【机器学习】简单关联分析算法-Apriori algorithm

        前面讲的K-means 聚类算法是一种无监督学习,今天要学习的A-priori算法是一个‘先验算法’,通过该算法我们可以对数据集做关联分析(association analysis)。

        用A-priori发现数据的频繁项集(frequent item),关联规则(association rules)。那什么是频繁项集与关联规则呢?

        频繁项集:经常出现在一块的物品的集合。

        关联规则:暗示两种物品直接可能存在很强的关系。

        上面为frequent item与association rules的大白话解释,那么该如何定义和表示它俩呢?这里我们要引入支持度和可信度(置信度)。请您走向这个链接:Link_1

        当您读到Link_1讲解代码的时候,我个人感觉博主梳理的知识逻辑比较不顺了,这个时候推荐您走向这个链接:Link_2

    总结Link_2:Apriori适合小规模数据集,Apriori主要基于frequent item,所以本文引用的关联分析默认都是基于频繁集的关联分析。 如果存在一条关联规则,它的支持度和置信度都大于预先定义好的最小支持度与置信度,称之为强关联规则。

    强关联规则可用来了解项之间的隐藏关系(Hidden Relationship),⭐:所以,association analysis的目的是为了寻找强关联规则,而A-priori则主要用来帮助寻找强关联规则。        

    频繁集由候选集剪枝(prunning)得到:

            ①利用各项支持度与min_sup(最小支持度)进行比较  => 最终频繁集结果

            ②利用最终频繁集结果以及各项置信度及min_conf(最小置信度) 进行比较 =>就可得强关联规则了

        当您读完Link_2的时候,是不是感觉理论差不多都OK了呢?代码部分可以继续参考链接1与2。

       

        

        小结一下:

                后续介绍DHP算法:An optimization of A-priori 

                               DIC算法:Dynamic itemset counting【Reduce Number of Scans】 

                                由Sergey Brin (Founder of Google)发明。

 

参考资料(建议按顺序阅读)

数据挖掘十大算法(四):Apriori(关联分析算法)_昆兰.沃斯 的博客-CSDN博客_关联分析算法终于到了机器学习实战的第十一章了,这也是继K-均值后的第二个无监督学习算法了。同样的该算法也是在一堆数据集中寻找数据之间的某种关联,这里主要介绍的是叫做Apriori的‘一个先验’算法,通过该算法我们可以对数据集做关联分析——在大规模的数据中寻找有趣关系的任务,本文主要介绍使用Apriori算法发现数据的(频繁项集、关联规则)。这些关系可以有两种形式:频繁项集、关联规则。        频...https://blog.csdn.net/qq_36523839/article/details/82191677?utm_source=app&app_version=4.17.0&code=app_1562916241&uLinkId=usr1mkqgl919blen

关联分析之Apriori算法【精品】关联分析之Apriori算法_卧龙居-CSDN博客_关联分析apriori算法

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值