用python分析：7万网站用户行为大数据分析

最新推荐文章于 2024-07-12 16:16:27 发布

Python-Jack

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量408

点赞数

文章标签： python

本文链接：https://blog.csdn.net/qfluohao/article/details/105662693

版权

今天的教程有点长，耐心点看完，你会有收获的。基础薄弱的伙伴，不清楚的可以留言，要视频学习教程的，可以留言！

7万网站用户行为大数据分析

数据分析师，是通过数据对业务团队决策、公司管理层的决策进行“指点江山”。在实际工作内容是做数据分析报告；构建机器学习模型；打造数据产品，非常有“技术含量”。

数据分析师的工作日常是进行各种数据分析，告诉业务小伙伴，根据你的目的，你应该设计什么样的活动，投入什么样的资源，针对什么样的用户群。

收集数据发现活动效果很好，一定是平时活动效果的N倍。然后继续下一次迭代。

然而，万里之行始于足下。

数据分析常被提及两个问题

1 如何将新用户、回流用户、活跃用户、不活跃用户进行分层。
2 如何求回购率、复购率

你知道该如何回答么？你有更好的答案么？你能验证你的答案么？

让我们一起开始大数据分析之旅吧

一：查看数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

columns = ['user_id','order_dt','order_products','order_amount']
df = pd.read_table("E:/yizhiamumu/yizhiamumu.txt",names = columns,sep = '\s+')
df.head()

打印结果：

    user_id	order_dt	order_products	order_amount
0	1	19970101	1	11.77
1	2	19970112	1	12.00
2	2	19970112	5	77.00
3	3	19970102	2	20.76
4	3	19970330	2	20.76

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 69659 entries, 0 to 69658
Data columns (total 4 columns):
user_id           69659 non-null int64
order_dt          69659 non-null int64
order_products    69659 non-null int64
order_amount      69659 non-null float64
dtypes: float64(1), int64(3)
memory usage: 2.1 MB

# 数据类型的转化
df['order_dt'] = pd.to_datetime(df.order_dt,format = '%Y%m%d')
df['month'] = df.order_dt.values.astype('datetime64[M]')

df.describe()

    user_id	order_products	order_amount
count	69659.000000	69659.000000	69659.000000
mean	11470.854592	2.410040	35.893648
std	6819.904848	2.333924	36.281942
min	1.000000	1.000000	0.000000
25%	5506.000000	1.000000	14.490000
50%	11410.000000	2.000000	25.980000
75%	17273.000000	3.000000	43.700000
max	23570.000000	99.000000	1286.010000

# 喵喵数据：
# 用户平均每笔订单的购买数是2.4，中位数为2，数据右偏；
# 75分位数在3个商品，说明绝大部分订单的购买量都不多；
# 购买数量最大值达到了99，说明数据存在一定的极值干扰；
# 用户每笔订单平均消费35.89元，中位数25.98元，消费最大金额达到了1286元。
# 消费类订单数据很可能存在二八数据分布

二：大数据分析

1 每月消费情况概览

# 按月
# 1 每月消费频次
df.index = pd.to_datetime(df.order_dt)
month_grouped = df.resample('m').agg({'user_id':'count',
                    'order_products':'sum',
                    'order_amount':'sum'})
month_grouped['user_sum'] = df.resample('m')['user_id'].nunique()

month_grouped.head().style.background_gradient(subset=['order_products','order_amount'],cmap = 'BuGn').highlight_max(color='red')

user_id	order_products	order_amount	user_sum
order_dt				
1997-01-31 00:00:00	8928	19416	299060	7846
1997-02-28 00:00:00	11272	24921	379590	9633
1997-03-31 00:00:00	11598	26159	393155	9524
1997-04-30 00:00:00	3781	9729	142824	2822
1997-05-31 00:00:00	2895	7275	107933	2214

import pylab

pylab.rcParams['figure.figsize']=(16,20)
fig,axes = plt.subplots(4,1)
axes0,axes1,axes2,axes3 = axes.flatten()
axes0.bar(month_grouped.index,month_grouped.user_id,width=20,color='red')
axes0.set_title('每月的消费频次')
axes1.bar(month_grouped.index,month_grouped.order_products,width=20,color='red')
axes1.set_title('每月的产品购买量')
axes2.bar(month_grouped.index,month_grouped.order_amount,width=20,color='red')
axes2.set_title('每月消费的总金额')
axes3.bar(month_grouped.index,month_grouped.user_sum,width=20,color='red')
axes3.set_title('每月的消费人数')

# 去重user_id
df.drop_duplicates('user_id')['user_id'].resample('m').count()

order_dt
1997-01-31    7846
1997-02-28    8476
1997-03-31    7248
Freq: M, Name: user_id, dtype: int64

# 喵喵数据：
# 用户粘性不足：前三个月每月的消费人数在8000-10000之间，后续月份平均消费人数在2000人不到，说明用户的粘性不足；
# 长期消费平稳：消费人群集中在前三月，4月开始，订单量、产品购买量、购买金额、消费用户数量基本处于平稳；
# 用户回购消费：新用户的购买行为主要集中在前三月，后面的消费主要是由前三月用户的回购行为产生。

2 每月用户平均消费金额分析

# 2 每月用户平均消费金额分析
pylab.rcParams['figure.figsize']=(16,6)
user_avgamount = month_grouped['order_amount']/month_grouped['user_sum']
plt.title('每月用户平均消费金额',size=20)
plt.bar(user_avgamount.index,user_avgamount,width=20,color='red')
# 喵喵数据：
# 用户每月消费金额平稳：用户每月的平均消费水平比较稳定，主要集中在38-60之间。

用python分析：7万网站用户行为大数据分析

3 每月用户平均消费次数分析

# 3 每月用户平均消费次数分析
user_avgorder = month_grouped['order_products']/month_grouped['user_sum']
plt.bar(user_avgorder.index,user_avgamount,width=20,color='red')
plt.tit

最低0.47元/天解锁文章

Python-Jack

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
用python分析：7万网站用户行为大数据分析

今天的教程有点长，耐心点看完，你会有收获的。基础薄弱的伙伴，不清楚的可以留言，要视频学习教程的，可以留言！7万网站用户行为大数据分析数据分析师，是通过数据对业务团队决策、公司管理层的决策进行“指点江山”。在实际工作内容是做数据分析报告；构建机器学习模型；打造数据产品，非常有“技术含量”。数据分析师的工作日常是进行各种数据分析，告诉业务小伙伴，根据你的目的，你应该设计什么样的活动，投入什...
复制链接

扫一扫