基于python技术的电商母婴购物数据分析【数据来源阿里云天池】

在这里插入图片描述

一、数据集概述

​ 今天我们来看一个来着阿里云天池的数据集:淘宝母婴购物数据,有两个csv文件:

mum_baby.csv

mum_baby_trade_history.csv

1、mum_baby.csv

它包含了953个孩子的生日和性别信息,这些信息是由淘宝或天猫的消费者提供的。

在这里插入图片描述

2、mum_baby_trade_history.csv

该表包含29971条淘宝用户的历史交易信息。

在这里插入图片描述

3、分析方向

1.什么商品类别销量最佳?

2.用户为之购买商品的婴儿年龄、性别分布?

3.销量与月份关系?

4.用户复购情况?

在这里插入图片描述

二、数据预处理

以时间段较长的奶粉为例.

对配方奶粉的分段,
主要是根据国际食品法典委员会制定的cac来进行划分。

婴幼儿奶粉现在大范围上基本分为一段、二段、三段,
部分婴幼儿奶粉可能会分为四段、五段。

奶粉分段及适用年龄:

第1段婴幼儿奶粉适合0~6个月的宝宝;

第2段婴幼儿奶粉适合6~12个月的宝宝;

第3段婴幼儿奶粉适合1周岁~3周岁的宝宝;

第4段奶粉适合3周岁~7周岁的孩子。

7周岁最多为365*7=2555天,
那么对于天数大于2560天的天数视为无效数据,
删除行。

import pandas as pd

mum_baby = pd.read_csv('.\data\mum_baby.csv')
trade_history = pd.read_csv('.\data\mum_baby_trade_history.csv')


tample = mum_baby.merge(trade_history, how="left", on='user_id').fillna(0)

tample['birthday'] = pd.to_datetime(tample['birthday'].astype(str))
tample['day'] = pd.to_datetime(tample['day'].astype(str))
age_days = tample['day'] - tample['birthday'] 
tample.loc[:, 'age_days'] = age_days  
print(tample.age_days)

j = 0
for i in age_days:
    tample.loc[j, 'age_days'] = i.days
   
    j += 1

tample.age_days = pd.DataFrame(tample.age_days, dtype=int)


tample[tample['age_days'] > 2560].sort_values('age_days').to_excel(r'.\data\age_days_gt7year.xlsx')
tample[tample['age_days'] < 0].sort_values('age_days').to_excel(r'.\data\age_days_lt0year.xlsx')


tample
  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值