2024年最全实战案例!Python+SQL京东用户行为分析(1),2024年最新我了解到的面试的一些小内幕

给大家的福利

零基础入门

对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

同时每个成长路线对应的板块都有配套的视频提供:

在这里插入图片描述

因篇幅有限,仅展示部分资料

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以点击这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

x=list(range(0,16))
for a,b in zip(x,cpb_line[‘Frequency’]):
    plt.text(a+0.1, b + 0.001, ‘%.2f’ % b, ha=‘center’, va= ‘bottom’,fontsize=12)
plt.title(‘消费用户日人均消费次数’)


output


![图片](https://img-blog.csdnimg.cn/img_convert/f06a828c5f5dc652adc1881662585c2b.png)


日消费人数在25000以上,日人均消费次数大于1次。



dau3_df = behavior.groupby([‘date’,‘user_id’])[‘type’].count().reset_index()
dau3_df = dau3_df[dau3_df[‘type’] >= 3]



# 每日高活跃用户数(每日操作数大于3次)
dau3_num = dau3_df.groupby(‘date’)[‘user_id’].nunique()



# SQL
SELECT date, COUNT(DISTINCT user_id)
FROM
(SELECT date, user_id, COUNT(type)
FROM behavior_sql
GROUP BY date, user_id
HAVING COUNT(type) >= 3) dau3
GROUP BY date;
fig, ax = plt.subplots(figsize=[16,6])
sns.pointplot(dau3_num.index, dau3_num.values, markers=‘D’, linestyles=‘–’,color=‘teal’)
x=list(range(0,16))
for a,b in zip(x,dau3_num.values):
    plt.text(a+0.1, b + 300 , ‘%i’ % b, ha=‘center’, va= ‘bottom’,fontsize=14)
plt.title(‘每日高活跃用户数’)


output


![图片](https://img-blog.csdnimg.cn/img_convert/74056a85ae458a4cac8b0caa9ec07a30.png)


每日高活跃用户数在大部分4万以上,2018-04-04之前数量比较平稳,之后数量一直攀升,8号9号达到最高,随后下降,推测数据波动应为营销活动产生的。



# 高活跃用户累计活跃天数分布
dau3_cumsum = dau3_df.groupby(‘user_id’)[‘date’].count()



# SQL
SELECT user_id, COUNT(date)
FROM
(SELECT date, user_id, COUNT(type)
FROM behavior_sql
GROUP BY date, user_id
HAVING COUNT(type) >= 3) dau3
GROUP BY user_id;



fig, ax = plt.subplots(figsize=[16,6])
ax.set_yscale(“log”)
sns.countplot(dau3_cumsum.values,palette=‘Set1’)
for p in ax.patches:
        ax.annotate(‘{:.2f}%’.format(100*p.get_height()/len(dau3_cumsum.values)), (p.get_x() + 0.2, p.get_height() + 100))
plt.title(‘高活跃用户累计活跃天数分布’)


output


![图片](https://img-blog.csdnimg.cn/img_convert/9fa7e191495301b850bbad93cf3ad7f6.png)


统计周期内,大部分高活跃用户累计活跃天数在六天以下,但也存在高达十六天的超级活跃用户数量,对累计天数较高的用户要推出连续登录奖励等继续维持其对平台的黏性,对累计天数较低的用户要适当进行推送活动消息等对其进行召回。



#每日浏览量
pv_daily = behavior[behavior[‘type’] == ‘pv’].groupby(‘date’)[‘user_id’].count()
#每日访客数
uv_daily = behavior.groupby(‘date’)[‘user_id’].nunique()



# SQL
#每日浏览量
SELECT date, COUNT(type) pv_daily FROM behavior_sql
WHERE type = ‘pv’
GROUP BY date;
#每日访客数
SELECT date, COUNT(DISTINCT user_id) uv_daily FROM behavior_sql
GROUP BY date;



# 每日浏览量可视化
fig, ax = plt.subplots(figsize=[16,6])
sns.pointplot(pv_daily.index, pv_daily.values,markers=‘D’, linestyles=‘–’,color=‘dodgerblue’)
x=list(range(0,16))
for a,b in zip(x,pv_daily.values):
    plt.text(a+0.1, b + 2000 , ‘%i’ % b, ha=‘center’, va= ‘bottom’,fontsize=14)
plt.title(‘每日浏览量’)


output


![图片](https://img-blog.csdnimg.cn/img_convert/d54b276b2a0618895c11a665745416ce.png)



# 每日访客数可视化
fig, ax = plt.subplots(figsize=[16,6])
sns.pointplot(uv_daily.index, uv_daily.values, markers=‘H’, linestyles=‘–’,color=‘m’)
x=list(range(0,16))
for a,b in zip(x,uv_daily.values):
    plt.text(a+0.1, b + 500 , ‘%i’ % b, ha=‘center’, va= ‘bottom’,fontsize=14)
plt.title(‘每日访客数’)


output



![图片](https://img-blog.csdnimg.cn/img_convert/e80ce92edaa2d8cd016e82672bfd1db1.png)


浏览量和访客数每日变化趋势大致相同,2018-04-04日前后用户数量变化波动较大,4月4日为清明节假日前一天,各数据量在当天均有明显下降,但之后逐步回升,推测应为节假日营销活动或推广拉新活动带来的影响。



#每时浏览量
pv_hourly = behavior[behavior[‘type’] == ‘pv’].groupby(‘hour’)[‘user_id’].count()
#每时访客数
uv_hourly = behavior.groupby(‘hour’)[‘user_id’].nunique()



# SQL
# 每时浏览量
SELECT date, COUNT(type) pv_daily FROM behavior_sql
WHERE type = ‘pv’
GROUP BY hour;
# 每时访客数
SELECT date, COUNT(DISTINCT user_id) uv_daily FROM behavior_sql
GROUP BY hour;
# 浏览量随小时变化可视化
fig, ax = plt.subplots(figsize=[16,6])
sns.pointplot(pv_hourly.index, pv_hourly.values, markers=‘H’, linestyles=‘–’,color=‘dodgerblue’)
for a,b in zip(pv_hourly.index,pv_hourly.values):
    plt.text(a, b + 10000 , ‘%i’ % b, ha=‘center’, va= ‘bottom’,fontsize=12)
plt.title(‘浏览量随小时变化’)


output


![图片](https://img-blog.csdnimg.cn/img_convert/abf6f3a1031df185766106a5c6e83cd2.png)



# 访客数随小时变化可视化
fig, ax = plt.subplots(figsize=[16,6])
sns.pointplot(uv_hourly.index, uv_hourly.values, markers=‘H’, linestyles=‘–’,color=‘m’)

for a,b in zip(uv_hourly.index,uv_hourly.values):
    plt.text(a, b + 1000 , ‘%i’ % b, ha=‘center’, va= ‘bottom’,fontsize=12)
plt.title(‘访客数随小时变化’)


output


![图片](https://img-blog.csdnimg.cn/img_convert/9c692cf2197c62bed7a656a18ff33291.png)


浏览量及访客数随小时变化趋势一致,在凌晨1点到凌晨5点之间,大部分用户正在休息,整体活跃度较低。凌晨5点到10点用户开始起床工作,活跃度逐渐增加,
  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值