![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习实战
love_image_xie
这个作者很懒,什么都没留下…
展开
-
第11章:使用Apriori算法进行关联分析(计算频繁项集)
目的:找到数据集中事务的关系,如超市中经常一起出现的物品集合,想找到支持度超过0.8的所有项集 概念: 频繁项集:指经常出现在一起的物品集合; 关联规则:指两个物品之间可能存在很强的关系,如一个人买了什么之后很大可能会买另一种东西; 支持度:数据集中包含该项集的记录所占的比例;保留满足最小支持度的项集即为频繁项集; 可信度:针对诸如{尿布}-{葡萄酒}这样的关联规则产生的,定义为支持度(...原创 2018-11-30 18:57:23 · 2672 阅读 · 0 评论 -
第11章:使用Apriori算法进行关联分析(从频繁项集中挖掘关联规则)
原理: 根据频繁项集找关联规则,如有一个频繁项集{豆奶,莴苣},那么可能有一条关联规则是豆奶->莴苣,即一个人购买了豆奶,则大可能他会购买莴苣,但反过来一个人购买了莴苣,不一定他会购买豆奶,频繁项集使用支持度量化,关联规则使用可信度或置信度量化。一条规则P->H的可信度定义为支持度(P|H)/支持度(P)。(注意:python中'|'表示并集,数学中'U'表示并集) 网络示意图: ...原创 2018-11-30 19:27:01 · 2814 阅读 · 1 评论 -
第12章:使用FP-growth算法高效发现频繁项集
原理:通过构建FP树,在FP树中发现频繁项集。如下图所示。 由图可知FP树包含头指针,父节点,节点的名字,节点的值,节点链接值(虚线),节点的孩子节点,因此构建类定义树结构,如下所示: class treeNode: def __init__(self,nameValue,numOccur,parentNode): self.name=nameVal...原创 2018-11-30 19:55:00 · 206 阅读 · 0 评论