【数据分析】数据分析达人赛2:产品关联分析

—Xi—

已于 2023-03-15 19:34:30 修改

阅读量1.9k

点赞数 3

分类专栏：数据挖掘竞赛文章标签： Apriori算法关联规则频繁项集购物篮分析销售策略

于 2022-10-18 21:36:10 首次发布

本文链接：https://blog.csdn.net/m0_51933492/article/details/127395888

版权

3、采用efficient_apriori算法挖掘频繁项集和频繁规则

4、绘制频繁项集的条形图

赛题背景

赛题以购物篮分析为背景，要求选手对品牌的历史订单数据，挖掘频繁项集与关联规则。通过这道赛题，鼓励学习者利用订单数据，为企业提供销售策略，产品关联组合，为企业提升销量的同时，也为消费者提供更适合的商品推荐。

赛题数据

数据源：order.csv，product.csv，customer.csv，date.csv ，分别为订单表，产品表，客户表，日期表

链接：https://pan.baidu.com/s/1F_Vhs4pQn88aBgA5blSl7w?pwd=0hmu
提取码：0hmu

赛题任务

现在需要你使用关联分析（比如Apriori算法）挖掘订单中的频繁项集及关联规则
说明：
1）频繁项集、关联规则的计算会用到支持度、置信度、提升度等指标，
2）频繁项集：即大于最小支持度的商品或商品组合
3）关联规则：在频繁项集中，满足最小置信度，或最小提升度的推荐规则
（这里最小支持度、最小置信度或最小提升度，选手可以根据数据集的特点自己设定）

1、导入数据

!pip install efficient_apriori --user
'''在天池实验室做的，下载用!pip install efficient_apriori --user，如果在本地直接pip install efficient_apriori'''

import pandas as pd
import time
import matplotlib.pyplot as plt
from matplotlib import font_manager

#设置正常显示字体
font_manager.fontManager.addfont('./SimHei.ttf')
plt.rcParams['font.sans-serif'] = ['SimHei'] # 设置汉字字体,优先使用黑体
plt.rcParams['font.size'] = 12  # 设置字体大小
plt.rcParams['axes.unicode_minus'] = False   # 设置正常显示负号

df_order = pd.read_csv('./order.csv',encoding='gbk')
df_product = pd.read_csv('./product.csv',encoding='gbk')
df_customer = pd.read_csv('./customer.csv',encoding='gbk')
daf_date = pd.read_csv('./date.csv',encoding='gbk')
df_order.head()

2、

最低0.47元/天解锁文章