目录
一、数据集介绍
数据集来源于用户在网上的购物行为,涵盖了过去一年有购买行为的64000个用户,这些用户被用于电子邮件营销活动的实验分析。实验的目的是衡量哪个版本的电子邮件营销活动最有效,以及针对哪部分人群最有效。用户被随机地分为以下三组:
- 1/3的用户会收到一封以男士商品为主的电子营销邮件(实验组-男士版)
- 1/3的用户会收到一封以女士商品为主的电子营销邮件(实验组-女士版)
- 1/3的用户不会收到邮件(对照组)
两周后收集实验结果,可用的特征有:
- Recency:距离最近一次购买行为,经过了多少个月
- History:过去一年用户实际花费的金额
- Mens: 1/0,1-过去一年用户购买过男士用品
- Womens: 1/0,1-过去一年用户购买过女士用品
- Zip_Code::地区
- Newbie: 1/0,1-过去一年内的新用户
- Channel: 过去一年用户的购物渠道
用于描述用户的分组信息:
- Segment:有三个枚举值分别是Mens-E-mail、Womens-E-mail和No-E-mail
实验有三个评价指标,分别是:
- Visit:1/0,1-用户在两周内访问了网站
- Conversion:1/0,1-用户在两周内有购买行为
- Spend:用户在两周内实际消费的金额
二、问题及分析思路
1、问题
数据集的提供者提出了8个问题:
- 哪个电子邮件活动最有效,男士版还是女士版?
- 男士版电子邮件活动为每位顾客带来了多少销售额的增加?女士版电子邮件活动为每位顾客带来了多少销售额的增加?
- 如果你只能给10000个顾客发送Email,你会选择哪些顾客?为什么?
- 如果你可以从收到电子邮件的顾客中剔除10000个人,不让他们参加此活动,你会选择哪些顾客?为什么?
- 对于不同的客户群体,男士版本和女士版本的活动效果有差异吗?
- 当选择不同的评价指标,比如访问、转化和消费额时,活动效果有差异吗?
- 你是否观察到任何异常或奇怪的发现?
- 根据实验结果,你会将男士版和女士版的投放定位到哪些顾客?你会用哪些数据来支持你的建议?
2、分析思路
Q1&Q6:
结论:
男士版活动最有效,visit、conversion、spend三个指标均比女士版效果明显。
思路:
这两个Q思路是一样的,本质都是在计算ATE。先做PSM匹配合适的对照样本,然后分别计算vist、conversion和spend三个指标的ATE,比较男士版本和女士版本的差异。
实验结果:
Q2:
思路:
这道题本质是在问,选择spend作为评价指标时的ITE是多少,和第一题的思路差不多,先做PSM,然后计算实验组每个用户的ITE。
Q3&Q4:
思路:
这两个Q本质上是一个问题,即如何按发送邮件的优先级给用户排个序?然后我们只需要取排序后的前10000和后10000个用户即可。
首先,我们可以根据用户的自然行为和受处理后行为这两个维度将用户分成四类,那么第二象限的用户是对营销活动最敏感的,如果发送邮件,应该优先发送给这部分用户。 其次,应该给第一象限的用户发送邮件,邮件对这部分用户也有一定的作用。最后,剩余的用户按照消费间隔(recency)和消费等级