![4fbcb7da44e42c52c2b2c3eaee7c9acd.png](https://img-blog.csdnimg.cn/img_convert/4fbcb7da44e42c52c2b2c3eaee7c9acd.png)
本文利用已有数据通过申MYSQL对淘宝用户行为进行分析,主要分为几个部分:
1、观察理解数据。因为是在已有数据的基础上进行分析,因此先观察数据,思考能在数据中获取到什么有用的信息;
2、提出问题。观察理解数据后,针对关键指标提出待解决问题。
3、对数据进行清洗。
4、构建模型。
5、数据可视化
6、总结建议。
一、理解数据
数据来源
User Behavior Data from Taobao for Recommendation-数据集-阿里云天池tianchi.aliyun.com![c35ae6c809f9d4c6874730419c969b87.png](https://img-blog.csdnimg.cn/img_convert/c35ae6c809f9d4c6874730419c969b87.png)
数据集介绍
![b6366d5d39c0b76acbec88164be82548.png](https://img-blog.csdnimg.cn/img_convert/b6366d5d39c0b76acbec88164be82548.png)
本数据集随机抽取了从2017年11月23号到2017年12月3号大约一亿条淘宝用户行为数据,包括点击数量、添加购物车数据量、收藏数量以及购买数量。这个数据集和MovieLens-20M非常相似,每一行代表了一个特定用户-商品的组合,它们由用户编号、商品编号、商品类别编号、用户行为和时间戳构成。
由于本数据集数据量过大,因为 选取前100万条数据进行分析 。
二、提出问题
1、电商分析常用数据指标
![a0ad71d2647afaa734babc470eeac18e.png](https://img-blog.csdnimg.cn/img_convert/a0ad71d2647afaa734babc470eeac18e.png)
2、本次分析的问题以及相应的指标
本次通过对淘宝用户行为数据分析,解决以下问题:
(1)用户从点击浏览、收藏、加入购物车以及追踪购买整个流程的各个环节的流量指标和转化率,提出提高转化率的建议。
(2)研究不同时间、不同时段的用户活跃程度,了解用户的时间行为模式。
(3)研究哪些购买次数最多以及用户复购次数分布情况,找出核心用户群体,进行精准营销。
(4)研究销量TOP N商品以及不同商品的购买次数,优化商品的结构。
![e15f3cddd134169835887571b19ea484.png](https://img-blog.csdnimg.cn/img_convert/e15f3cddd134169835887571b19ea484.png)
三、数据清洗
1、选择子集
导入全部字段
2、列名重命名
原数据集缺少字段名,因此在导入时调价字段名和类型,再导入CSV。
![843dccc0c25ba276b59c266990d9e19f.png](https://img-blog.csdnimg.cn/img_convert/843dccc0c25ba276b59c266990d9e19f.png)
建表时字段均为“不是null”,因此保证无缺失值。
3、去除重复值
![4abf5edcb74ce0efcf509a1d130c4fc1.png](https://img-blog.csdnimg.cn/img_convert/4abf5edcb74ce0efcf509a1d130c4fc1.png)
根据查询结果,无重复值,不需要去重。
4、一致化处理
向原表中添加datetime、date以及time三个字段,将“时间戳”转化为日期时间、日期和时间添加进相应字段中。
![7b2e9269538ad0e31e80f597ac0b506e.png](https://img-blog.csdnimg.cn/img_convert/7b2e9269538ad0e31e80f597ac0b506e.png)
![a46ed3ae6ec900a12ffc8c67c28a946c.png](https://img-blog.csdnimg.cn/img_convert/a46ed3ae6ec900a12ffc8c67c28a946c.png)
5、异常处理
由于原数据是包括了2017年11月25日到2017年12月3日之间有行为的用户行为,查看异常数据
![7e44358d388e95cce3f91973f8af547c.png](https://img-blog.csdnimg.cn/img_convert/7e44358d388e95cce3f91973f8af547c.png)
![20d5f207e904e68f12f0dc646f125d1c.png](https://img-blog.csdnimg.cn/img_convert/20d5f207e904e68f12f0dc646f125d1c.png)
验证数据准确性
![5ce9019b59ad015d5ed0d3be2c87b0f7.png](https://img-blog.csdnimg.cn/img_convert/5ce9019b59ad015d5ed0d3be2c87b0f7.png)
四、构建模型。
(一)用户行为模式
1、不同日期流量指标。PV、UV、人均页面访问量。
![12b85437f17275ea4960d0bb93bf5fdc.png](https://img-blog.csdnimg.cn/img_convert/12b85437f17275ea4960d0bb93bf5fdc.png)
![9d0b2cf2bc88a054a1e8ead273c6b49a.png](https://img-blog.csdnimg.cn/img_convert/9d0b2cf2bc88a054a1e8ead273c6b49a.png)
![0a4c95e54ecc97bb269ce3b166353999.png](https://img-blog.csdnimg.cn/img_convert/0a4c95e54ecc97bb269ce3b166353999.png)
![ae2d61c96d24f92c3049754ab8bbe55d.png](https://img-blog.csdnimg.cn/img_convert/ae2d61c96d24f92c3049754ab8bbe55d.png)
通过结果可以看出,12月22号和12月3号两天(周末)无论是PV还是UV都有明显的上涨,根据用户的行为,商家可以考虑在周末进行相应的营销活动,拓展渠道。而均访问量基本持平,保持在13左右。
2、不同时段的流量指标。
![57d24d980f42961bd10081370e3a6a45.png](https://img-blog.csdnimg.cn/img_convert/57d24d980f42961bd10081370e3a6a45.png)
![a8c3b4c831971df062b5a09271127524.png](https://img-blog.csdnimg.cn/img_convert/a8c3b4c831971df062b5a09271127524.png)
![6951ac38e2067a786f516c792433344a.png](https://img-blog.csdnimg.cn/img_convert/6951ac38e2067a786f516c792433344a.png)
通过对一天中不同时段的流量指标进行分析,发现PV和UV总体上呈正相关,从6点到23点一直处于上升趋势,尤其是19点到23点之间,说明大部分的用户在晚上时间段进行购物。人均访问量在19点到23点也有明显的提升。
(二)用户购买流程转化情况
1、各行为类型用户数量
![112d2fb31b1348846c93b0d3fb4d5ef9.png](https://img-blog.csdnimg.cn/img_convert/112d2fb31b1348846c93b0d3fb4d5ef9.png)
![9e5e46a1966964b667ccc7c5a99248cf.png](https://img-blog.csdnimg.cn/img_convert/9e5e46a1966964b667ccc7c5a99248cf.png)
从结果结果可以看出,从浏览到收藏或加入购物车这一环节的转化率并不高,加入购物车紧张PV的6.19%,收藏占比为3.14%,说明如何提高点击转化率才是重点,优化商品的筛选功能,优化产品页面。
2、不同时段各种用户行为占比
![e1f2f0e21a32e6e8b15554a36ff09bca.png](https://img-blog.csdnimg.cn/img_convert/e1f2f0e21a32e6e8b15554a36ff09bca.png)
在不同时段上,用户加入购物车和收藏的行为占比相对稳定,而购买的占比重,11-13点有小幅度的上涨。
3、不同复购次数的人数
![e42a1c9a386ae53ab707583f917b94d3.png](https://img-blog.csdnimg.cn/img_convert/e42a1c9a386ae53ab707583f917b94d3.png)
![f8d3e187908d4d6e59f932d8b29b95c1.png](https://img-blog.csdnimg.cn/img_convert/f8d3e187908d4d6e59f932d8b29b95c1.png)
从结果上看,购买了两次的人数最多,占购买次数大于一次的35.54%,上次的23.59%,并随着次数额增多递减,符合用户的消费习惯,其中消费次数最多的用户消费次数达72次。用户复购率66.21%。
![f129179301f998408dd95dc3ff96b40b.png](https://img-blog.csdnimg.cn/img_convert/f129179301f998408dd95dc3ff96b40b.png)
通过以上 分析,可以帮助商家找到高价值的客户,了解高价值客户的购买行为,通过有针对性的进行个性化推荐等方式提高销量。
(三)商品销售分析
1、销量前二十的商品
![b4eeacb3c383b1ea4e712d74b06d92fd.png](https://img-blog.csdnimg.cn/img_convert/b4eeacb3c383b1ea4e712d74b06d92fd.png)
针对产品的销量情况,商家可以优化产品结构,调整产品的页面等有利于用户快速找打自己所需商品,提高产品的销量。
2、不同购买次数的商品数量
![232e7e6806303153894398a25c30e290.png](https://img-blog.csdnimg.cn/img_convert/232e7e6806303153894398a25c30e290.png)
![a4e287aa916a4fc837fcba5cf4a76130.png](https://img-blog.csdnimg.cn/img_convert/a4e287aa916a4fc837fcba5cf4a76130.png)
从购买次数来看,仅仅别购买一次的商品占了88.45%,一次和两次的占比达97.38%,没有什么特殊的规律。
五、结论
根据以上对用户行为的数据进行分析,可以得出以下结论:
1、PV和UV在周末两天显著增加,或是由于平台促销活动,或是休息日的影响,针对这种情况,商家可以在周末进行一些促销活动,提高产品销量。
2、在一天的不同时间段中,从早上六点到晚上23点稳步上升,尤其是19点到23点期间,说明大部分的用户更喜欢在晚上进行商品的浏览以及购买,商家应该抓住点击量和独立访客数多的时候开展营销活动。
3、加入购物车的转化率仅为6.19%,转化率低,商家应该考虑如何提高商品的转化率。比如优化关键词,提高产品搜索的准确性。
4、用户商品复购率达66.21%,其中两次购买的人数最多,可以通过商品优惠推送等方式进一步提高客户的复购率,大部分用户追求的是性价比,所以只有提供物美价廉大商品才能增强用户的忠诚度。特别是对于复购次数较多的用户,要了解他们的购买行为,有针对性的进行个性化推荐以及给与一些优惠政策,提高用户自身的忠诚度以及进行病毒式传播。
5、对于热销的商品,可以优化商品详情页,将销量高的商品置于容易客户查找的位置,便于客户由浏览化成为购买。