分析思路
1、 分析用户在使用淘宝APP时的行为,确定相关指标,确定用户流失环节。
2、 分析用户在不同时间段的行为趋势变化。
3、 通过对部分商品的用户行为分析,提出针对不同类型用户的调整建议。
AARRR(海盗模型)其实是用户生命周期的模型:先拉新,其次促活,接着提高留存,然后获取收入,最后实现自转播。
AARRR模型主要针对一款特定产品,最初使用该产品的用户群体在各个环节会逐渐有一定的流失,通过层层深入达到最终的转化。
相关指标
1.不同时长,不同行为下的pv/uv等用户行为分析
2.日ARPPU, 日ARPU,用户消费次数分布等消费行为分析
3.复购时间间隔,不同用户复购时间分布等复购行为分析
4.流失率分析(AARRR模型)
5.用户价值度分析(RFM模型)
数据预处理
简单的步骤都省略了,当数据量过大的时候有可以抽样取样,来减少写代码的等待时间,等全写完了再运行所有的数据。注意是不放回取样
#data_user=data_user.sample(frac=0.1,replace=False)
data_user=pd.read_csv('tianchi_fresh_comp_train_user.csv',dtype=str)
data_user.info()
data_user.head()
data_user.dtypes
data_user.apply(lambda x:sum(x.isnull()))#缺失数据量
data_user.apply(lambda x:sum(x.isnull())/len(x))#缺失数据率
处理日期格式
data_user['date']=data_user['time'].str[0:10]
data_user['hour']=data_user['time'].str[11:]
data_user['date']=pd.to_datetime(data_user['date'])
data_user['time']=pd.to_datetime(data_user['time'])
data_user['hour']=data_user['hour'].astype(int)
data_user.sort_values(by='time',ascending=True,inplace=True)
data_user.reset_index(drop=True, inplace=True)#扔掉原来的索引,否则原来的索引就成为了一个新的变量
data_user.head()
describe也可以包含object或者all
data_user.describe(include=['object'])#包括了对象变量
data_user.describe(include='all')#包括了全部变量
用户行为分析
用户访问页面的总数,用户每访问一个页面就算一个访问量
groupby生成的series可以用rename改列名
pv_daily=data_user.groupby('date').count()['user_id'].rename('pv',inplace=True)
size跟count的区别: siz