Python项目实战
- Python项目实战 —— 0淘宝用户行为分析
一、背景
本数据集共有大约1200万条数据,数据为淘宝APP2014年11月18日至2014年12月18日的用户行为数据,字段分别是:user_id用户身份(已脱敏)、item_id商品ID(已脱敏)、behavior_type用户行为类型(包含点击、收藏、加购物车、支付四种行为,分别用数字1、2、3、4表示)、user_geohash地理位置、item_category品类ID(商品所属的品类)、time用户行为发生的时间。
二、解题思路
本文从以下几个角度,对淘宝用户进行行为分析:
① 不同维度用户行为数据;
② 用户感兴趣的商品品类;
③ 漏斗分析;
④ RFM分析;
三、数据分析
3.1 数据清洗
查重 ➜ 缺失值处理 ➜ 数据加工(如时间字段的处理、astype等)
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('/xxx/recommend_user.csv',parse_dates=['time'])
df['date'] = df.time.dt.date
df['hour'] = df.time.dt.hour
print('文件中有{}行重复数据,已删除.'.format(len(df[df.duplicated()])))
df.drop_duplicates(inplace=True,ignore_index=True)
df.drop(['user_geohash','time'],axis=1,inplace=True)
3.2 数据分析
3.2.1 用户整体行为分析

在此期间,用户的行为如下:访问次数是748w,访问人数是1w,人均访问次数是747.9次,数据详情如图所示…
3.2.2 用户每日行为分析

自进入12月开始,访问次数和人数逐渐上升,且在双十二当天达到峰值,访问次数约43w次、人数约7.7k人,购买量1.4w件;此外,在双十二的前后一周内,每日的数据基本大于等于均值。 付费率=付费人数/总人数,当日点击且购买的付费率均值是23.8%,当月点击且购买的付费率均值是77% (11月是72.4%,12月是81.8%)。
3.2.3 用户每时行为分析

- 05-10点:人们逐渐醒来开始上班,利用路程时间访问app,访问人数和次数都在持续上升;
- 10-17点:人们工作时间,利用空闲时间访问app,访问人数和次数都处于平稳状态;
- 17-22点:人们下班有大量空余时间,可访问app购买自己所需商品,访问人数缓慢上升,但访问次数上升明显的,且在21&22点达到峰值;在此时间段购买量和人均购买次数都高于均值且上升明显;
- 22-05点:因开始休息了,故访问人数和次数都在持续下降;
3.2.4 用户对商品品类的挑选分析

在点击量和购买量前20的品类中,相同的品类共计有14种(已标星); 在点击量top20中,有7种商品的购买率低于均值; 在购买量top20中,有12种商品的购买率低于均值;
3.2.5 漏斗分析
点击→收藏的转化率:3.22% 点击→加入购物车的转化率:4.46% 点击→支付的转化率:1.48% 建议:增加跨店满减、收藏加购送商品赠品、送福利等活动,引导用户收藏加购行为,从而提高用户购买转化率。
3.2.6 用户分类(RFM分析)
RFM分析步骤:①计算R/F/M值;②根据打分规则,分别计算Score_R/F/M;③根据平均值,分别计算Result_R/F/M(得分大于均值标记为2,反之为1);④计算RFM得分,并给客户分类;

- 占比最多的是重要发展客户,这类客户消费频次低,我们需要提升他们的消费频率,可通过优惠券叠加等活动来刺激消费;
- 其次是重要挽留客户,这类客户消费时间间隔较远,且消费频次低,需要主动联系客户(如短信、邮
本项目通过Python分析淘宝1200万用户行为数据,涵盖数据清洗、用户整体行为、每日行为、每时行为、商品品类选择及RFM分析。发现用户活跃高峰期在21-22点,付费率在23.8%左右,建议通过活动提高转化率,针对不同用户群体采取个性化运营策略。
最低0.47元/天 解锁文章
2239

被折叠的 条评论
为什么被折叠?



