mysql 时间段内的周末_淘宝用户行为分析——MYSQL实战

9945c3efd48155ceebda6ebecd8e6a2d.png

对于任何零售行业,用户分析都是一个重要的环节,随着网购的日益发展互联网购物平台的竞争也更加激烈,也对互联网用户数据分析提出了更高的要求,而淘宝作为一个用户数超过5亿的大型购物平台,其用户数据是具有代表性的,因此我们将对淘宝的用户行为数据进行分析,期望能找到淘宝用户行为背后隐藏的的信息

一、分析思路

为了对数据建立一个整体的印象方便进行分析,我们将分两步对数据进行分析,第一步是整体的描述性分析,这一步将对2017年11月25日至2017年12月3日用户的行为情况进行一个整体的描述,发现普遍存在的一些问题,第二步将对第一步发现的问题进行进一步的假设验证,根据数据提出相应的建议。

8543587e8f6478cdddfcf88412dc16bb.png

为了能快速对数据建立整体印象,我们将电商数据中的一些常用指标进行了整理

e1b47a4fea37194b5fdbc8e6c82b0974.png

由于数据数据集本身说覆盖的范围较小,本次我们将关注于网站的总体运营指标,流量指标,转化率指标,以及客户价值指标;

二、数据来源与数据清洗

数据来自于阿里巴巴天池

User Behavior Data from Taobao for Recommendation-数据集-阿里云天池​tianchi.aliyun.com
03ff8b64d5a91d892f2546d111e1a939.png

数据的个字段相关信息如下:

39b41d3b18ee9ae9dca136dd9e06c977.png

f50ea5a8f1c1f6d1a508e6bca2ebb9cc.png

数据共涉及用户数量,商品数量,商品类目数量,所有行为数量四个维度,共100,150,807行,考虑到数据量,我们随机提取了100万条数据进行分析。

处理过程中涉及到UNIX时间转换以及取随机值以及处理大量数据遇到的问题详见以下文章

xietq:MYSQL随机取值/1206报错解决方式​zhuanlan.zhihu.com
5f4d8385a23737b8b973dc94d428c844.png
xietq:SQL比较时间(datetime)大小​zhuanlan.zhihu.com
5f4d8385a23737b8b973dc94d428c844.png

在对数据整体进行检查后,我们先对错误数据进行清理,数据集日期为2017年11月25日至2017年12月3日,先删除不在此日期范围内的数据。

DELETE 

然后将表中的空值删除

DELETE
	

最后将数据库的重复值去除,由于单个客户可能在不同的时间对同一件商品进行相同的操作,因此我们在数据导入的过程中将用户ID,商品ID,行为类型及时间设为了主键,因此目前数据库内无重复值。

三、分析

首先我们对总体运营指标进行分析

1.独立访客数 (UV)/页面访客数(PV)

我们提取了100万次访问记录,其中页面访客次数为89万次,独立访客数为21万次,平均每名客户能能创造4次访问,100万次记录中2.8万次加入收藏,5.5万次加入购物车,以及2万次达成后下单,共44万个商品ID被客户查看。

da6c6068404173eb9693ca993e1633fa.png
SELECT 

整体上来看平均每名客户在购买产品前会对网页进行4次查看,从浏览到购买的转换率约为2.25%

我们对单个产品的流量分布情况进行了分析,发现流量的集中度相对较高,浏览量排名在前10%的产品占据了整体的40%的流量,同时其余90%的产品2周浏览量不足4次。

SELECT 

从访问星期分布上来看,访问高峰在每周的周六以及周日,周一至周五至周五相对较低

8d272de79c27afba7ae64895a2f0a1e1.png
SELECT 

bae661ea18d3ffaabe6d9e99ae882b24.png

浏览按照时间分析

访问时间对于广告的投放,促销活动的安排以及服务人员的排班有一定指导意义

从数据上来看,不难看出每天的20:00至22:00为每天的客流高峰,与工作日相比周末时客流会明显增加,同时高峰时段也会相应有所延长,18:00至次日1:00客户浏览量出现了一个明显的高峰,并一直保持在4000次以上

21df0f443d5e22883c4454f6fb390749.png
SELECT 

购买按照时间分布

为了进一步的了解客户在浏览时的行为,我们将客户的购买情况也进行了分析,我们发现在周末用户的购买行为与工作日在购买时间上有一定的差异,在浏览量没有较大变化的情况下,客户在上午10点至下午3点左右会出现一个购买高峰;而工作日的客户的购买数始终保持在一个相对稳定的水平,这可能是由于客户的购买意愿导致的,而客户的购买意愿可以通过转化率(PV/BUY)进行分析。

cd0f158f7edf2f6f2e22a13d9df8de45.png
SELECT 

转换率随时间的变化

通过对转化率(PV/BUY)的分析我们能发现,在每天的10:00左右会出现一个明显的转化率高峰,为了消除单一日期特殊活动可能造成的异常,我们将每天的数据进行了平均,结果依然表现出在9:00-10:00这个时间段,出现了一个转换率的高峰,这对店铺的活动及人员安排能起到一定的指导作用。

d8f35c5bded4247e2b22cebfc5059ca7.png
SELECT 

考虑到PV只计算了网页访问量与购买的关系,而转换率的提升有可能是由于客户重复查看网页而不购买或者其他与用户浏览有关的数据造成的误报,我们有将UV引入同时进行对比,发现UV同样在9:00-10:00区间出现了高峰,因此我们可以认为该时间段的转换率确实相对较高。

07272286084afe1c298a12775d58eed4.png
SELECT 

同时我们发现,与工作日的转化率较高的时段比周末相对较早,工作日8点达到转化率最高值,而周末约10点达到转化率最高值,推迟约两小时,我们猜测这可能是由于周末作息时间变化而导致的转化率波动。

6a08c7c4a5275abc827151b15c1fe7ee.png

2.网站流量指标

网站流量指标关注与进入网站的流量情况,主要使用PV,UV,跳出率以及人均页面访问数进行统计

整体来看,每个客户的平均访问页面数为4.25页,这说明绝大多数客户会在离开前对页面进行一定的浏览。

SELECT 

跳出率

但同时也有大约22.5%的客户在仅浏览一页后退出网页,对于网站来说,这部分流量属于无效流量,这反应广告的推送与客户需求的匹配度还有提升空间

SELECT 

将客户浏览情况与客户最终的购买行为相结合,我们发现,绝大多数完成购买的客户都是在进入网站后浏览5页页面前完成的购买,但仍有较大部分的客户在浏览5-9页后才完成购买;根据分析发现平均客户在访问页数在4.25页左右将会离开,因此用户着陆页面可能存在设计不合理导致整体购买流程较长,提升流失风险。

91d647ac849c44ec5c7cc98175b08dca.png

3.转化率指标

整体而言,浏览到加入购物车等后续流程的转化率较低,这也从另一个方向说明着陆网页的设计以及用户引流的效率可能存在问题。

SELECT 

6981834bb0c287e4d03cb7d6f9983050.png

d38d016cb0bbd228bca0a20d0a2b3097.png

3.客户购买情况

经过对100万条数据的整理,我们发现100万条数据中共有18000名客户购买了商品,这说明在9天内,有客户进行重复购买或者购买了多个产品,考虑到与引入新客户相比,老客户重复购买的成本更低,也更能够体现客户对产品的满意程度,我们对17年11月25日至12月3日共9天的客户重复购买情况进行了分析,发现过在去9天中客户的平均购买次数为1.1次;同时仅有7%的客户在9天的周期内有重复购买的行为。考录到数据的时间跨度较短,且商品的特征不明确因此难以对客户复购情况进行判断。

a76f8e9d51ef5278e84ece0696075025.png

4.结论

一、用户的浏览行为,购买行为存在一定的时间规律,且随着工作日及周末成周期性变化,客户营销活动可以考虑按照规律进行相应的调整

二、客户着陆页流失流比例较高,约23%,着陆页设计及客户引流的准确度存在提升的空间。

三、大量购买发生在了客户浏览超过4页后完成,说明购买流程相对较长可能导致用户中途流失,影响转化率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值