一、项目背景
通过"扫描"零售商店电子销售点个别产品的条形码而获得的消费品销售的详细数据。
这些数据提供了有关所售商品的数量、特征和价值以及价格的详细信息。
二、数据来源
https://www.kaggle.com/marian447/retail-store-sales-transactions
三、提出问题
-
消费情况分析及用户购买模式分析
-
RFM和CLV分析
-
不同类别商品关联规则挖掘
四、理解数据
-
Date:购买日期
-
Customer_ID:用户ID
-
Transaction_ID:交易ID
-
SKU_Category:商品分类SKU编码
-
SKU:商品唯一SKU编码
-
Quantity:购买数量
-
Sales_Amount:购买金额
👇 👇 👇 更多精彩机密、教程,尽在下方,赶紧点击了解吧~
素材、视频教程、完整代码、插件安装教程我都准备好了,直接在文末名片自取就可
五、数据清洗
1.导入数据
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns
%matplotlib inline
更改设计风格
plt.style.use('ggplot')
plt.rcParams['font.sans-serif'] = ['SimHei']
2.选择子集
第一列为数据编号,已有索引故删除
df.drop(columns='Unnamed: 0', inplace=True)
df.info()
3.删除重复值
df.duplicated().sum