用python的dictreader得出的数据_用SQL解决用户行为分析

edbcdec3a541aa8d69ba64db1c6c5af8.png

一、背景介绍

在电商行业普及率相当高的今天,人们早已适应从互联网上获取商品,消费模式由线下转到线上。在消费者尚未了解自己想要什么之前,互联网早已根据众多消费者和个人消费者的消费行为得出结论,分析消费行为的结论反作用于消费者,以促进消费行为,提升购买力成为各大电商的竞争力。

二、提出问题及分析思路

Q1:用户在一天中的浏览习惯和在一周内的浏览习惯有什么特征?

Q2:该平台最能吸引新用户的是什么产品?

Q3:消费者不同的行为如何转化为消费,减少客户流失?

Q4:对于不同层级的用户如何提升客户体验和服务?

Q5:该平台最具竞争力的产品有哪些?

1bdcf3e6567da2a95b78fa55209ad2b0.png

三、数据描述

User Behavior是阿里巴巴提供的一个用户行为数据集,用于隐式反馈推荐问题的研究

数据集包含2017/11/25至2017/12/3之间(双十二购物节前期),约100万随机用户的行为。由于数据量较大,在此次分析中仅采用10万条数据进行分析,在navicat中进行数据导入时输入最后一行数据行:100000

数据集的每一条表示一条用户行为,包括:用户ID,商品ID,商品类目ID,行为类型,时间戳,以逗号分隔

  1. 用户ID:整数类型,序列化后的用户ID
  2. 商品ID:整数类型,序列化后的商品ID
  3. 商户类目ID:整数类型,序列化后的商品所属类目ID
  4. 行为类型:字符串,枚举类型,包括——'pv','buy','cart','fav'
  5. 时间戳:行为发生的时间戳

行为类型

  1. pv:商品详情页pv,等价于点击
  2. buy:商品购买
  3. cart:将商品加入购物车
  4. fav:收藏商品

数据量说明

  1. 用户数量:987994
  2. 商品数量:4162024
  3. 商品类目数量:9439
  4. 所有行为数量:100150807

四、数据清洗

导入10 w条数据后,选择英文作为table名和column名可以避免在查询语句中输入中文字符导致错误,当将数据导出到Excel完成数据可视化分析时,需要注意将数据类型转化为数字

e09d8994efba0d73033a098fd0ae4e6f.png

1.计算缺失值

根据查询,可见表中不存在缺失值,进行下一步,如存在缺失值则需判断缺失值所占整体数据的比重

9d11f788fa835cb129164c729c153e59.png

2.删除重复值

根据业务需求进行判断是否需要对表的部分或全部进行去重处理,因该表用于分析消费者行为,无需去重处理

3.一致化处理

将时间戳timestamp转换为日期格式,由于直接更改column数据类型会导致报错,因此使用 from_unixtime() 函数

ce09b2ff2e7fd88fbd0705297e57cc31.png

from_unixtime() 函数将timestamp列转换为:年-月-日 时:分:秒,年月日和时分秒中间用空格隔开

31e2478ea35b9fa66877f11d9548cba6.png

根据实际需要在timestamp列分别截取日期和时间,并另存为新的一列

atler table 更改表结构,增加date和hour两列

update table 更改表数据,使用substring()函数截取数据填充到新增加的date列和hour列中

substring(your_string,from,for)从第6个字符开始截取5个字符保存在date,从第12个字符开始截取2个字符保存在hour

8ad59633596febef8faa50de406643e1.png

c313c0c29ecfa53a9e5c6571b27c76b1.png

4.异常值处理

因为数据来源于2017/11/25至2017/12/3之间,现查找处于该日期外的数据并删除(共44条)

be14f4e7484b7107ff790f30a6805f14.png

a68fa074cdbb2d992e26cb8705442fa6.png

五、数据分析及可视化

  1. 流量行为分析:
  • 按日/时统计pv、uv、pv/uv

d8031a53d1af000989edb18b54105cc5.png

例:同一天内的同一IP访问商品详情页的次数,随着访问次数的增加,pv累计计数,而uv则只计数一次

uv: unique visitor (day/hour)

pv:page view (day/hour)

pv/uv转化率:当一个IP多次访问同一商品详情页时,则意味着消费者的购买意向强烈

66d3982702be8b1d326f6a90be49c314.png

e8dbc9a9f1135acd5a57a2af39bffc7d.png
  • 得出结论:pv和uv的变化趋势接近相同,都在12-2到达峰值,而pv/uv的转化率在12-1日达到峰值,(11-27至12-1为工作日),在此期间访问量偏低,而在(12-1至12-2)访问量持续攀升,查询可知是由于双十二大促的预售活动导致访问量的激增

3766ada9958f1144936b21090fafd77c.png
  • 得出结论:消费者在凌晨至六点的点击量处于波谷(休息时间),在一天中的20点至23点(工作日下班后),点击量处于波峰,用户处于活跃阶段,可在此时段投放产品预售活动或产品直播,刺激消费者购买
  • 留存率

首先整合user表,计算出每个用户的任意行为(fav,cart,buy,pv),然后计算出每个用户首次出现任意行为的时间,用user中每条数据和最早行为时间做对比以求出时间差,最后将首次时间分组,求N日留存:N天人数/首次人数

a2573053cb04dc13472a2f40ca860ec9.png

642fb292d1a657525aadd216d69c1a36.png

d7a0d38aa2f42d8afb0090fc45d01c74.png

6baa0f3bb29ffc10fbdb580081d8e46f.png
  • 得出结论:以留存间隔为横坐标(有任意行为的最早时间),以研究日期对留存的影响。可以发现,不同间隔的留存率均呈现同一种变化状态:整体呈逐日递减趋势,第三日留存趋势不同与整体趋势不同(未查明原由,暂且忽略),其余均在倒数第三天到达高峰,为12-1,该日的活动导致用户活跃

2.用户画像——用户购买行为

a847ca52b6813baf321b869a76e128fd.png
  • 首次归因:根据消费者首次购买商品类型进行分析,得出网站最能吸引用户的产品,以便在后续的个性化推送及促销活动中准确定位用户,以提高用户购买率,同时可用于与同类型电商平台做对比,提升平台产品竞争力

d1d6d7434ad8f2c19ac6a34da035e274.png

c2927b9b02483984ceb49f051a1bbcfd.png
  • 得出结论:1464116和2735466类型产品在吸引新用户方面具有竞争力
  • 行为统计:根据每日用户的点击量、加购量、收藏量、购买量进行统计

c83e1d14113dc2483653a58c91179f6f.png

88c92375e087d2f041c790b08a05cab4.png
  • 得出结论:pv的数量级远高于 cart,fav和buy,所以pv以主坐标显示,其余均以副坐标显示。变化趋势均趋近相同,在12-2日到达峰值,可以看到当日的活动非常具有吸引力
  • AARRR漏斗模型分析行为转化率(用户流失)

消费者行为:pv、buy、cart、fav,无论有哪些行为最终我们想都想达到购买的目的,但每一环节都存在流失,统计该数据目的是为了减少用户在该环节的流失

738234e610168c92e1c56ace25ea357c.png

5fa0b75d9fb31da716a0036bed7290b8.png

1a5cc15cce2e68468fc0a58d32814f9d.png

pv,cart和fav都是以buy为导向,如何减少在这个过程中购买的流失,可以由上图得知,点击转化为购买远低于收藏或加购转为购买,而收藏加购后的流失率占比相当大,如何减少才此环节的流失,我们可以在以下几个方面进行分析:

Q1.收藏还是加购哪种行为更能提高转化?

首先因为购物车相对收藏更加明显看到价格波动和产品活动,其次购物车有产品数量限制,更少的产品留在购物车中,更能被用户看到

通过用户行为,不仅应该对已购买商品用户,发送活动促销通知,也因该对加购/收藏产品进行推送,以提高转化率

ba7908379e105b8ea42d600441cad991.png

9e9b71b5f79204c1ca461c6bb9ebe344.png
  • 得出结论:可明显看到用户的习惯更倾向于将商品加到购物车而不是收藏夹

Q2.假设产品推送是否为用户需要产品?(根据用户浏览和购买可知)

94ed9dfdf96fd8d3adcbb6fb73a7174a.png

1225e404fbaca7c55e100e2ea0648e93.png
  • 得出结论: 由销量TOP10和浏览TOP10数据可知,重合度达到50%,说明推送产品转化为购买的粘合度一般,应该采取多种形式以提高转化率
  • 复购率

复购率=有复购行为用户数/有购买行为用户数=65.87%

b8026d59af7ebc805771414df6270ba5.png

cec5a126790924a59387a1118a3a2f74.png
  • 得出结论:用户的复购率高达65.87%,说明该平台的粘合度很高,平台具有很强的竞争力

用户画像——用户价值分析

  • 用户分级RFM模型

RFM模型:用于对用户分级,根据现有数据,可计算获得R(最近一次消费的时间间隔)和F(消费频率),但已有数据中无法获得消费金额(M)

首先计算出每个有buy行为用户的R,F,并根据得出的数据找到R,F的最大值,用于给不同区间的R,F进行评分,因所有数据的时间均在(2017-12-04)之前,所以R值以(2017-12-04)为基准进行计算,且R越大分值越低(最近一次的购买时间距离现在的时间越长)

63be6f5f1ba8f6d0416b136a5e2cb50c.png

31b9110159860dc8e448bdf701d949c5.png

根据R,F评分机制,计算出每个用户的R,F值,并分别计算R,F的平均分,高于平均分的用(R低/F高)代替,低于平均分的用(R高/F低)代替

6e7ec2a2c3e6f80f3ae6eba383d56b0b.png

abdb7c3378f72e9f30b55a202963fb1c.png

5d1b320a671fddc4a09ea9675cc8e5bb.png

最后计算用户分级后(价值用户,保持用户,发展用户,挽留用户)所对应的人数

14d5e3eb2616ea7cdc9200bd7793ebdc.png

ac6147627654702565c55854ae4de87c.png

93a4c275a98ad10e63ac460c3f1e1a46.png
  • 得出结论:

价值用户占比最低5%,该类用户购买力强,忠诚度高,可提供该类型用户更高水平的服务,以增加用户满意度,如:高级客服服务和专享礼券等;

保持用户占比最高61%,该类用户的消费频率高,但距最近一次交易时间较长,可对该类型用户通过短信发放消费券,以促进购买

发展用户占比10%,该类用户的购买率低,可根据该类型用户的购买习惯和浏览记录进行个性化推荐,以促进消费;

挽留用户占比24%,该类型用户的购买率低且距最近一次消费时间较长,可对该类型用户提供免费的VIP体验服务和vip体验礼券(限时),以提高用户粘合度

  • 用户在一段时间内的购买频率

5b058f897b6f131ccfc738067909e97d.png

c887e6acf9539184a61280e272438706.png
  • 得出结论:根据复购分布图可知,消费者的复购排名最高的是当天,最低的是第八天,说明该平台在短时间内吸引消费者产生复购行为的可能性很大,用户粘合度高

dd9a9f1e658d408288fdc3a9b3b079d4.png
  • 商品点击量和购买量(得到835条数据)

87fd439b5f1ce5ad5f0b9add6b3a8b37.png

c1adbf0e4e852455690aa2e5c7e99b62.png
  • 得出结论:由散点图可知多数产品的点击量和购买量都偏低
  • 畅销产品TOP10

畅销前十的产品:由于分析数据较少,单一产品的购买量较低

13d8ca2ecde4084687e5e9c3ead2271e.png

94ed9dfdf96fd8d3adcbb6fb73a7174a.png
  • 点击产品类型TOP10

e0479900ec8ee33605dce1fe7ac202ca.png

0b2bce02bb921cf92270eb4cab4056ed.png
  • 畅销产品类型TOP10

75bea6179ba04c8259e4d7fc8e1d689e.png

12f10ab2e5163d5c6953cff230f2f295.png
  • 得出结论:在购买前十产品类型和点击前十产品类型中,都存在的产品类型有:4145813,4801426,3002561,4756105,3607361,重合度有50%,该类产品具有很强的竞争力,更能吸引消费者,并且购买前十的转化率要高于浏览前十的转化率

六、合理化建议

  • 根据用户行为时间分析:根据不同时间段/时间周期用户行为模式的不同,采取针对性的推送和促销手段,提升用户与平台的粘合度
  • 根据消费行为分析:在用户发生首次购买行为后,定时通过客服/短信发放特殊优惠,以提高复购率,关注流失率高的环节,持续优化
  • 用户价值分析:根据不同用户进行分级,采取不同方案,对于购买率高但购买力不足的用户给予适当优惠,对于优质用户提供个性化服务
  • 商品分析:根据双十二前期的预售活动得到销量和点击量高的产品的促销手段,也适用于日常的小型促销/直播中,以刺激消费者购买
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
京东是中国最大的综合性电子商务网站之一,拥有庞大的用户数量和丰富的用户行为数据。为了更好地理解和分析用户行为模式,可以使用Python结合SQL来进行京东用户行为分析。 首先,我们需要从京东的数据库中提取所需的数据。使用Python中的SQL库(如pymysqlsqlite3),连接到数据库,并编写SQL查询语句来获取有关用户行为数据。查询可以包括用户ID、浏览商品、下单、购买、评价等各种行为信息。通过执行SQL查询,可以将数据结果存储在Python中的数据结构中,如列表或Pandas数据框,以供后续分析使用。 接下来,可以使用Python中的数据分析和可视化库,如Pandas、Matplotlib和Seaborn,对用户行为数据进行分析和可视化。可以统计每个用户不同行为的次数、频率和占比,探索用户行为的变化趋势和规律。通过绘制柱状图、折线图、饼图等图表,可以更直观地展示数据分析结果。 此外,还可以使用Python中的机器学习和数据挖掘技术,如聚类分析、关联规则挖掘等,对用户行为数据进行更深入的挖掘。可以利用聚类分析用户划分为不同的群体,了解不同用户群体的行为特征和偏好,从而为个性化推荐和营销策略提供依据。可以使用关联规则挖掘来发现不同用户行为之间的关联性,如哪些商品经常一起被浏览或购买。 最后,将分析结果进行总结和应用。通过对京东用户行为分析,可以洞察用户的购物习惯、兴趣爱好和需求,为京东提供个性化的推荐服务和精准的营销策略。同时,还可以帮助京东改进产品和服务,提高用户的满意度和忠诚度。 总之,PythonSQL结合可以对京东用户行为进行全面、深入的分析,为京东提供有力的数据支持和决策参考。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值