基于MySQL的京东用户行为分析

该博客通过MySQL分析京东用户行为,包括每日/每小时的uv和pv、用户画像、AARRR模型。发现uv低谷可能因节日或技术问题,男性用户活跃,年龄段5和6占比高。跳失率高,用户转化漏斗显示激活和购买环节是主要流失点,复购率低。建议优化商品推荐和用户激活策略,提升用户忠诚度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

一、数据处理

1.字段说明

 2.数据清理-excel

二、用户分析

1.计算uv(访客数)和pv(访问量)

a 计算每日uv(访客数)和pv(访问量)

b  计算每小时uv(访客数)和pv(访问量)

​编辑

2.人群画像

(1)客户性别比例

 (2)年龄分布

3.运用AARRR模型对用户行为路径分析

(1)对整体指标进行分析

 (2)跳失率

(3)制定用户转化漏斗

(4)复购率

​编辑

(5)分析用户流失的主要原因

 三、总结


数据文件链接:https://pan.baidu.com/s/12h0nckIE6qLMBy-ywzqf8w 
提取码:i1q2

1.字段说明

数据共183828条数据,数据字段20个。

 2.数据清理-excel

查看是否有缺失值

 存在缺失值的有年龄分段、会员城市级别和开店时间,其中年龄分段和会员城市级别的缺失率很小,可以删除缺失值。而开店时间缺失率占比达到了0.3882,暂时保留数据,需要相关分析时再去除。

 删除重复值

并未发现重复值,故无需处理。

异常值处理

对数据进行描述性分析,结果如下:

 店铺打分最小值为-1,考虑到可能是差评,店铺打分一般是0-10,认定0分以及是差评了,负数总共有1524条,不是很多,故可以负数改为0。

 行为时间提取年份、月份、日、周、小时列,其中星期一到星期日为1-7。

将处理好的数据导入mysql。

二、用户分析

1.计算uv(访客数)和pv(访问量)

a 计算每日uv(访客数)和pv(访问量)

select 日期,count(distinct 客户编码) 日uv
from `京东消费者行为分析数据`
group by 日期

 

 

 二月上旬属于平台高峰期,且在15号达到了最低谷,大概率是因为2月14号为情人节,二月上旬在搞情人节活动,很多情侣购买礼品的原因。

3月27号和28号两日的uv出现了异常,出现断崖式低峰,而在3月29日又恢复了正常,需要重点查明uv低下的原因,暂时分析可能的原因是数据出错或者这两日平台的技术出现了问题,导致用户无法登录。

其他日期的数据变化相对比较平稳,属于正常趋势。

select 日期,count(客户编码) 日pv
from `京东消费者行为分析数据`
group by 日期

 

 日pv跟日uv变化趋势一致,就不一 一叙述了。

b  计算每小时uv(访客数)和pv(访问量)

select 小时,count(distinct 客户编码) 日uv
from `京东消费者行为分析数据`
group by 小时

 

 每小时uv低谷出现在1-6点,该时间段为休息时间,所以是正常的。高峰出现在21-22点,比其他时间高不了多少,建议在19-23点这个时间段为主要推送活动等信息的时间段,这段时间相当于高峰期,但9-18点应该适当推送。

select 小时,count(客户编码) 小时pv
from `京东消费者行为分析数据`
group by 小时

 

 跟每小时uv趋势一样,就不多分析了。

参考资源链接:[京东电商数据集分析:Python与SQL揭示用户购物行为](https://wenku.csdn.net/doc/4j7v1dpm3s?utm_source=wenku_answer2doc_content) 分析京东电商数据集以揭示用户购物行为特征是一项复杂的工作,需要综合运用Python和SQL的知识和技能。首先,Python可以用于数据处理和统计分析,而SQL则用于数据库查询和数据提取。 Python部分: 在Python中,可以使用Pandas库来处理数据集。首先,导入数据集文件,读取CSV格式的数据,需要确保正确处理编码问题,尤其是中文字符和负号。其次,进行数据清洗,比如去除重复值、填充或删除缺失数据、转换数据类型来优化存储。使用Pandas的groupby和agg函数可以快速聚合数据,进行用户行为的频率分析、活跃度研究等。 SQL部分: SQL在此过程中主要用于从数据库中提取和查询数据。例如,可以使用SELECT语句结合WHERE子句来筛选特定时间段内的用户行为记录,或者使用GROUP BY子句来对用户行为数据进行分组统计。通过JOIN操作可以将不同表格的用户和商品信息进行关联,以分析商品热度和用户购物路径。此外,复杂的查询和分析可以通过创建视图和存储过程来优化执行效率。 结合Python和SQL的分析过程可能包括以下几个步骤: 1. 数据预处理:利用Pandas读取和清洗数据集,为SQL分析准备干净的数据源。 2. 数据加载:将处理好的数据导入数据库,通常为MySQL或其他支持SQL的数据存储系统。 3. 数据探索:使用Python编写SQL查询并执行,通过Pandas读取查询结果进行进一步分析。 4. 分析与可视化:利用Pandas的数据分析功能结合Matplotlib或Seaborn进行数据可视化。 5. 洞察生成:基于分析结果,生成用户购物行为的特征报告,指导电商运营决策。 通过这样的分析流程,我们能够从京东提供的数据集中挖掘出用户购物行为的深层特征,为电商平台的运营提供科学的数据支撑。 参考资源链接:[京东电商数据集分析:Python与SQL揭示用户购物行为](https://wenku.csdn.net/doc/4j7v1dpm3s?utm_source=wenku_answer2doc_content)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值