目录
3、采用efficient_apriori算法挖掘频繁项集和频繁规则
赛题背景
赛题以购物篮分析为背景,要求选手对品牌的历史订单数据,挖掘频繁项集与关联规则。通过这道赛题,鼓励学习者利用订单数据,为企业提供销售策略,产品关联组合,为企业提升销量的同时,也为消费者提供更适合的商品推荐。
赛题数据
数据源:order.csv,product.csv,customer.csv,date.csv ,分别为订单表,产品表,客户表,日期表
链接:https://pan.baidu.com/s/1F_Vhs4pQn88aBgA5blSl7w?pwd=0hmu
提取码:0hmu
赛题任务
现在需要你使用关联分析(比如Apriori算法) 挖掘订单中的频繁项集及关联规则
说明:
1)频繁项集、关联规则的计算会用到支持度、置信度、提升度等指标,
2)频繁项集:即大于最小支持度的商品或商品组合
3)关联规则:在频繁项集中,满足最小置信度,或最小提升度的推荐规则
(这里最小支持度、最小置信度或最小提升度,选手可以根据数据集的特点自己设定)
1、导入数据
!pip install efficient_apriori --user
'''在天池实验室做的,下载用!pip install efficient_apriori --user,如果在本地直接pip install efficient_apriori'''
import pandas as pd
import time
import matplotlib.pyplot as plt
from matplotlib import font_manager
#设置正常显示字体
font_manager.fontManager.addfont('./SimHei.ttf')
plt.rcParams['font.sans-serif'] = ['SimHei'] # 设置汉字字体,优先使用黑体
plt.rcParams['font.size'] = 12 # 设置字体大小
plt.rcParams['axes.unicode_minus'] = False # 设置正常显示负号
df_order = pd.read_csv('./order.csv',encoding='gbk')
df_product = pd.read_csv('./product.csv',encoding='gbk')
df_customer = pd.read_csv('./customer.csv',encoding='gbk')
daf_date = pd.read_csv('./date.csv',encoding='gbk')
df_order.head()