guan
大数据挖掘最深入人心的一个故事应该是“啤酒与尿布”,这个规律就是用关联分析发现的。今天我们就来点关联分析,刚刚学到的,现学现分享?。下面假设是某超市的交易记录(我编造的)
基本概念
我们在关联分析之前先了解几个基本概念。
找出频繁一起出现的物品集的集合,我们称之为频繁项集。比如一个超市的频繁项集可能有{ {啤酒,尿布},{鸡蛋,牛奶},{香蕉,苹果}}
mlxtend安装
mlxtend是python的机器学习扩展库,在数据科学中也会经常遇到。在本文主要是使用其中的关联分析一些方法
!pip3 install mlxtend
编码
这块跟sklearn文本分析的contvertorizer和tfidfvectorizer差不多,都是从数据中学到 空间