(接《用SQL完成购买行为分析(上篇)》内容)
五、构建模型
此次分析将不会罗列众多电商常规衡量指标(例如:UV(独立访客)),也不会使用常规电商模型及分析方法。(譬如:划分用户价值的RFM模型,或是用户行为分析的AARRR漏斗分析法。)这是因为样本量小(仅含10万条数据),使得基于常规电商衡量指标、模型及分析方法的判断缺乏说服力。这也包括一些电商常用指标设计上有缺陷,且需要和其他配套指标协同考虑,但现有的数据中不包含这些指标。以UV为例,它的用途是:统计浏览、访问一个网页的自然人数量。但它常有被低估的情况。如果客户端禁用cookie,则浏览次数将不被统计。如果多台电脑、手机访问网站,但共用一个客户端,则浏览次数仅计为一次。此外,UV通常要和用户行为路径、注册/非注册信息一同考虑,以完善UV的计数。毕竟,仅浏览首页和打开所有页面的用户行为途径,所对应UV的理解理应不同。
基于指标(设计)选取处(上篇中第三部分下第3点)的购买行为指标框架(如下图)
本次分析的目标细化为:通过观察绿框和红框部分的特点,发现可能导致购买行为,或带来回购行为的因素。具体分成两个部分。绿框部分的目的是:找到是什么行为最终转化成了购买行为。即购买行为的转化渠道。这一模型包含购买行为及其他有关子行为。红框部分的目标是:观察购买行为发生的时间、所涉及的消费者和具体商品。这一模型仅包含购买行为。
因此,将原有userbehavior(用户行为)表,分为将购买行为和购买行为有关的行为作为绿框部分的数据表purchaserelated;再将行为类型为购买的数据作为红框部分的purchasebehavior数据表。这里从userbehavior表删节并存储得到红框部分数据表purchasebehavior开始分析。
1、红框部分。
红框部分数据的分析可分为2部分:1)从时间、人、物3个角度出发,描述购买行为及回购行为,观察其特点。2)检查购买行为和回购行为数据是否符合二八法则。因为只有数据符合二八法则,依据上篇第3点(研究结论中)建议的方向处提到的:基于畅销商品和滞销商品的划分所做的扩大对畅销商品的投资以扩大利润的研究建议才能成立。
1)描述购买及回购行为
从userbehavior(用户行为)表中查出行为类型为buy的记录,把这部分数据放入名为purchasebehavior(购买行为)的新表,添加主键并刷新表,得到:
1.1 时间层面:
分为发现活跃日期和活跃小时,以及这9天内全部购买行为和回购行为的特点2部分。以每日下单量为单位考察购买行为活跃的日期,和以每小时下单量为单位考察购买行为活跃的时段2个层次。
1.1.1 活跃日期和活跃小时
1.1.1.1 以每日下单量为单位
红框内购买行为发生在2017年11月25-12月3日的9天之间。总购买次数为:2101次。各日期下单量为:
画成直方图:
在这9天中,2017年12月2日和2017年12月3日分别是一个周六和周日,下单数量最高。但同样是周六和周日的2017年11月25日和2017年11月26日,却并没有像12月2日和3日那样高的下单数。反而是2017年11月27日(周一)和11月30日(周四)拥有着第二高的下单数。因此,初步推断双休日人们因为有空闲时间,就会多下单的假设并不成立。
1.1.1.2 以每小时下单量为单位
在purchasebehavior表中添加一个名为小时的列,并用时间戳数据填充其内容,再查询时段对应购买行为。
结果得到:
可以看出,每日13-14点,19-22点是下单的高峰期,2-7点是下单的低潮期。
1.1.2 本次分析所含的9天数据的特点
在2017年11月25日和2017年12月3日的9天中,13-14点、19-22点间共发生596次购买行为。下面红框处是商品ID在指定的这两段时间内的出现总次数,而绿框处反映了第一条符合条件记录出现的小时时段。