某宝移动端用户行为分析---PYTHON

本文基于天池数据集,使用Python对14年双十一至双十二的淘宝用户行为进行分析。研究目标包括基础数据统计、用户行为转化漏斗、时间维度的用户习惯。结果显示,复购率为65.7%,购买转化率为1.06%。用户活跃高峰期在9:00-22:00,尤其是18:00-22:00,周二至周四活跃度最高。购买次数最多的是品类6344。建议通过活动提升购买转化率。
摘要由CSDN通过智能技术生成

1 数据来源说明

数据来源:下载于天池数据集–< User Behavior Data on Taobao App> https://tianchi.aliyun.com/dataset/dataDetail?dataId=46
这份数据是15年天池大赛的比赛数据,内容包括了14年双十一之后到双十二结束这段时间内用户的行为痕迹,共6个指标12256906个用户,本文将使用PYTHON对整体用户购物情况进行分析。
数据指标说明如下表:

column description
user_id 用户身份,脱敏
item_id 商品id,脱敏
behavior_type 用户行为类型(包括点击,收藏,加购物车和付款四种行为,相应的值分别为1,2,3和4。)
user_geohash 地理位置
item_category 品类ID(商品所属的品类)
time 用户行为发生的时间

2 研究目标

  • 基本数据统计
    总PV、总UV、有购买行为的用户数量、复购率、跳失率

  • 用户行为转化漏斗
    点击–收藏–加购物车–支付各环节转化率如何?

  • 购买次数占前80%的品类有多少?

  • 从时间维度了解用户的行为习惯
    每天的PV、UV

3 数据预处理

3.1数据抽样

导入数据,看看数据的具体情况

import pandas as pd
data=pd.read_csv(r'E:\DATA\tianchi_mobile_recommend_train_user.csv')
print(data.head())
data.info()
print(data.describe())

在这里插入图片描述
由于数据较为庞大,进行抽样处理–随机抽样
抽取100万条数据

#随机、可放回抽样
data=data.sample(n=10000,replace=True,axis=0) 
data.to_csv(r"E:\DATA\user.csv")
3.2 数据清洗

数据一致化处理
通过查看数据可得知,time字段的时间包含年-月-日和小时,为方便分析,将该字段分为2个字段:一个日期列,一个小时列
用Excel实现 将该字段的小时列删除,将数据名字保存为user_

#将数据处理为时间格式
data=pd.read_csv(r'E:\DATA\user_.csv')  
da
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值