一、数据集概述
今天我们来看一个来着阿里云天池的数据集:淘宝母婴购物数据,有两个csv文件:
mum_baby.csv
mum_baby_trade_history.csv
1、mum_baby.csv
它包含了953个孩子的生日和性别信息,这些信息是由淘宝或天猫的消费者提供的。
2、mum_baby_trade_history.csv
该表包含29971条淘宝用户的历史交易信息。
3、分析方向
1.什么商品类别销量最佳?
2.用户为之购买商品的婴儿年龄、性别分布?
3.销量与月份关系?
4.用户复购情况?
二、数据预处理
以时间段较长的奶粉为例.
对配方奶粉的分段,
主要是根据国际食品法典委员会制定的cac来进行划分。
婴幼儿奶粉现在大范围上基本分为一段、二段、三段,
部分婴幼儿奶粉可能会分为四段、五段。
奶粉分段及适用年龄:
第1段婴幼儿奶粉适合0~6个月的宝宝;
第2段婴幼儿奶粉适合6~12个月的宝宝;
第3段婴幼儿奶粉适合1周岁~3周岁的宝宝;
第4段奶粉适合3周岁~7周岁的孩子。
7周岁最多为365*7=2555天,
那么对于天数大于2560天的天数视为无效数据,
删除行。
import pandas as pd
mum_baby = pd.read_csv('.\data\mum_baby.csv')
trade_history = pd.read_csv('.\data\mum_baby_trade_history.csv')
tample = mum_baby.merge(trade_history, how="left", on='user_id').fillna(0)
tample['birthday'] = pd.to_datetime(tample['birthday'].astype(str))
tample['day'] = pd.to_datetime(tample['day'].astype(str))
age_days = tample['day'] - tample['birthday']
tample.loc[:, 'age_days'] = age_days
print(tample.age_days)
j = 0
for i in age_days:
tample.loc[j, 'age_days'] = i.days
j += 1
tample.age_days = pd.DataFrame(tample.age_days, dtype=int)
tample[tample['age_days'] > 2560].sort_values('age_days').to_excel(r'.\data\age_days_gt7year.xlsx')
tample[tample['age_days'] < 0].sort_values('age_days').to_excel(r'.\data\age_days_lt0year.xlsx')
tample