【数据分析】数据分析达人赛2:产品关联分析

目录

赛题背景

赛题数据

赛题任务

1、导入数据 

 2、数据探索

3、采用efficient_apriori算法挖掘频繁项集和频繁规则

 4、 绘制频繁项集的条形图

赛题背景

赛题以购物篮分析为背景,要求选手对品牌的历史订单数据,挖掘频繁项集与关联规则。通过这道赛题,鼓励学习者利用订单数据,为企业提供销售策略,产品关联组合,为企业提升销量的同时,也为消费者提供更适合的商品推荐。

赛题数据

数据源:order.csv,product.csv,customer.csv,date.csv ,分别为订单表,产品表,客户表,日期表

链接:https://pan.baidu.com/s/1F_Vhs4pQn88aBgA5blSl7w?pwd=0hmu 
提取码:0hmu

赛题任务

现在需要你使用关联分析(比如Apriori算法) 挖掘订单中的频繁项集及关联规则
说明:
1)频繁项集、关联规则的计算会用到支持度、置信度、提升度等指标,
2)频繁项集:即大于最小支持度的商品或商品组合
3)关联规则:在频繁项集中,满足最小置信度,或最小提升度的推荐规则
(这里最小支持度、最小置信度或最小提升度,选手可以根据数据集的特点自己设定)

1、导入数据 

!pip install efficient_apriori --user
'''在天池实验室做的,下载用!pip install efficient_apriori --user,如果在本地直接pip install efficient_apriori'''

import pandas as pd
import time
import matplotlib.pyplot as plt
from matplotlib import font_manager

#设置正常显示字体
font_manager.fontManager.addfont('./SimHei.ttf')
plt.rcParams['font.sans-serif'] = ['SimHei'] # 设置汉字字体,优先使用黑体
plt.rcParams['font.size'] = 12  # 设置字体大小
plt.rcParams['axes.unicode_minus'] = False   # 设置正常显示负号

df_order = pd.read_csv('./order.csv',encoding='gbk')
df_product = pd.read_csv('./product.csv',encoding='gbk')
df_customer = pd.read_csv('./customer.csv',encoding='gbk')
daf_date = pd.read_csv('./date.csv',encoding='gbk')
df_order.head()

 

 2、

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值