python groupby agg_使用Python对电商用户进行数据分析

1 背景介绍

上一篇文章https://zhuanlan.zhihu.com/p/91598168,使用MySQL对数据进行处理,这一篇文章使用Python的Pandas包对数据进行处理和可视化展现。 (推荐使用SQL,语法结构清晰。使用Pandas的话,构造布尔索引、分组后计数等比较麻烦。)

2 数据源介绍

数据源是天池竞赛的数据,包含2017年11月25日至2017年12月3日之间的用户行为数据。用户数大约100万,数据集记录数大约1亿。

3 分析目标

电商行业的主要分析目标有:用户、商品、网站分析、购买行为等。

  • 分析方法有:对比分析、分组分析、结构分析、矩阵分析等分析方法。
  • 分析模型有:漏斗模型、AARRR模型、RFM模型等。

v2-1d4ebc15850f1ea0de092b037070c043_b.jpg

3.1 目标&需求

根据数据集已有的字段,分析目标如下:

  • 网站分析:页面浏览量PV、访客数UV、跳失率。
  • 用户分析:购买用户数、购买次数、复购率。
  • 商品分析:销售量排名、产品类别分布、复购率高的商品。
  • 购买行为分析:点击、添加购物车、购买、各环节转化率。

4 数据清洗&数据处理

本次使用Pandas处理,一共有5列:userId, itemId, categoryId, behaviorType, timestamp。使用read_csv函数载入了前100万条记录。

导入数据集

import 

开始数据清洗

# 检查重复值:

注意:(1)时间戳1511539200代表'20017-11-25 00:00:00';(2)竖线|表示条件或;

经过数据清洗后,数据如下:

v2-d3a9bee6c1b301efbe28fab47798289d_b.jpg

5 统计分析&可视化

5.1 网站分析

页面浏览量和访客数:

pv 

备注:如果觉得代码长,实际操作时可以分步骤做。

每用户访问页面:pv/uv≈92。

统计分析:在这100万数据中,有895636次访问,9739个独立访客,平均每个用户访问了92个页面。

v2-45a646c30a76d6d84a6f8c068d3c7741_b.jpg
图-pv和uv的日走势

5.2 用户分析

有购买行为用户总数、各个用户的购买次数:

buy 

统计分析:有6689个用户发生购买行为。最高购买次数为72次,最低购买次数为1次,平均购买次数为3.0,总共购买次数为20359。

v2-faf43ff4172cdcea05ff09476d5f9d8c_b.jpg
图-各时段的uv

5.3 商品分析

各个商品购买次数、各个商品类别的购买次数:

buy 

统计分析:总共有17565件商品被购买,最大购买次数为17,最小购买次数为1,平均被购买1.16次,总共被购买20359次。商品种类一共有2513种商品。

5.4 购买行为分析

商品点击、添加到购物车、商品购买:

print

v2-96b85f7a0635a213e2804a4fe0b40617_b.jpg
图-注册->加入购物车->购买的漏斗图

统计分析:有895636次访问,28088次添加收藏,55447次添加到购物车,20359次购买。

6 结论和建议

参考:https://zhuanlan.zhihu.com/p/91598168 。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值