mysql 用户流失_利用SQL对平台用户行为进行分析

一、提出问题

1、 平台的用户流失情况是怎样的?

2、 造成该种流失情况是原因是什么?

二、理解数据

1、 数据来源

https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1

本数据集(UserBehavior.csv)包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、收藏)。

数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,源文件数据100,150,807条

2、 字段含义

列名称说明

用户ID:字符串类型,用户ID

商品ID:字符串类型,商品ID

商品类目ID:字符串类型,商品所属类目ID

行为类型:字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav')

时间戳:整型,行为发生的时间戳

注意到,用户行为类型共有四种,它们分别是

行为类型说明

pv:商品详情页pv,等价于点击

buy:商品购买

cart:将商品加入购物车

fav:收藏商品

三、数据清洗

通过数据库管理工具Navicat将数据集导入MySQL数据库中。

1、 选择子集

数据集全部为有效记录,由于数量巨大,故此仅随机导入了10,0000以供后续分析。

2、 删除重复值

无重复值

3、 缺失值处理

对所有列进行计数,计数结果都为99999,不存在缺失值。

fdaa75c80aaba17f77b172d5f436104b.png

4、 一致化处理

由于timestamp包含了(年-月-日)和小时,为了方便,将该字段分成2个字段,一个日期列一个时间列

6f52ee6d4ad96b7b254af7a1081d6373.png

c2c81dc8c930ee10c27dadbe3c01ff0e.png

f764d81ba94b08a584e1c9ff00df753b.png

5、 异常值处理

检查是否有错误时间戳,如负数或者0;不存在错误时间戳

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值