分析目的:本次分析将针对母婴类产品,根据市场销售数据分析需求,确定产品,指导上新。
本文在分析过程中参考了:张蒙:母婴产品上新策略分析(excel+tableau)的分析步骤,使用python进行分析。并提出了自己的一些想法。
数据来源:https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
数据解释:
-
user_id:用户ID
-
birthday:出生日期
-
gender:性别:0男,1女,2未知
-
auction_id:交易id
-
cat_id:产品id
-
property:商品属性
-
buy_mount:购买数量
-
cat1:根商品类目
-
day:成交日期
分析步骤包括:
(1)定类目
-
各类目母婴产品销量比较
-
各类目母婴产品ID数量比较
(2)定产品
- 选定类目产品销售量比较
(3)上新筹备
-
上新时间:分析母婴产品年度销售趋势
-
产品卖点:分析母婴产品成交记录中高频关键词
-
消费者画像:消费者年龄、消费者性别比(儿童基本信息)
首先相关模块和数据导入:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
data_history = pd.read_csv('mum_baby_trade_history.csv')
data_info = pd.read_csv('mum_baby.csv')
前期处理
#两个表格的时间处理
data_info['birthday'] = pd.to_datetime(data_info['birthday'],format='%Y%m%d',errors='ignore')
data_history['day'] = pd.to_datetime(data_history['day'], format='%Y%m%d', errors='ignore')
#两个表格关联(只保留有儿童信息的部分)
data_all = pd.merge(data_history,data_info,on='user_id',how='right')
#时间处理
data_all['year'] = pd.DatetimeIndex(data_all['day']).year
data_all['quarter'] = pd.DatetimeIndex(data_all['day']).quarter
#儿童年龄计算
data_all['age']