1 数据来源说明
数据来源:下载于天池数据集–< User Behavior Data on Taobao App> https://tianchi.aliyun.com/dataset/dataDetail?dataId=46
这份数据是15年天池大赛的比赛数据,内容包括了14年双十一之后到双十二结束这段时间内用户的行为痕迹,共6个指标12256906个用户,本文将使用PYTHON对整体用户购物情况进行分析。
数据指标说明如下表:
column | description |
---|---|
user_id | 用户身份,脱敏 |
item_id | 商品id,脱敏 |
behavior_type | 用户行为类型(包括点击,收藏,加购物车和付款四种行为,相应的值分别为1,2,3和4。) |
user_geohash | 地理位置 |
item_category | 品类ID(商品所属的品类) |
time | 用户行为发生的时间 |
2 研究目标
-
基本数据统计
总PV、总UV、有购买行为的用户数量、复购率、跳失率 -
用户行为转化漏斗
点击–收藏–加购物车–支付各环节转化率如何? -
购买次数占前80%的品类有多少?
-
从时间维度了解用户的行为习惯
每天的PV、UV
3 数据预处理
3.1数据抽样
导入数据,看看数据的具体情况
import pandas as pd
data=pd.read_csv(r'E:\DATA\tianchi_mobile_recommend_train_user.csv')
print(data.head())
data.info()
print(data.describe())
由于数据较为庞大,进行抽样处理–随机抽样
抽取100万条数据
#随机、可放回抽样
data=data.sample(n=10000,replace=True,axis=0)
data.to_csv(r"E:\DATA\user.csv")
3.2 数据清洗
数据一致化处理
通过查看数据可得知,time字段的时间包含年-月-日和小时,为方便分析,将该字段分为2个字段:一个日期列,一个小时列
用Excel实现 将该字段的小时列删除,将数据名字保存为user_
#将数据处理为时间格式
data=pd.read_csv(r'E:\DATA\user_.csv')
da