因果推断-【The MineThatData E-Mail Analytics And Data Mining Challenge】思路分析与Python实现代码

本文链接：https://blog.csdn.net/JeffffWang/article/details/126367897

一、数据集介绍

数据集来源于用户在网上的购物行为，涵盖了过去一年有购买行为的64000个用户，这些用户被用于电子邮件营销活动的实验分析。实验的目的是衡量哪个版本的电子邮件营销活动最有效，以及针对哪部分人群最有效。用户被随机地分为以下三组：

两周后收集实验结果，可用的特征有：

用于描述用户的分组信息：

实验有三个评价指标，分别是：

数据集的提供者提出了8个问题：

Q1&Q6：

结论：

男士版活动最有效，visit、conversion、spend三个指标均比女士版效果明显。

思路：

这两个Q思路是一样的，本质都是在计算ATE。先做PSM匹配合适的对照样本，然后分别计算vist、conversion和spend三个指标的ATE，比较男士版本和女士版本的差异。

实验结果：

Q2：

思路：

这道题本质是在问，选择spend作为评价指标时的ITE是多少，和第一题的思路差不多，先做PSM，然后计算实验组每个用户的ITE。

Q3&Q4：

思路：

这两个Q本质上是一个问题，即如何按发送邮件的优先级给用户排个序？然后我们只需要取排序后的前10000和后10000个用户即可。

首先，我们可以根据用户的自然行为和受处理后行为这两个维度将用户分成四类，那么第二象限的用户是对营销活动最敏感的，如果发送邮件，应该优先发送给这部分用户。其次，应该给第一象限的用户发送邮件，邮件对这部分用户也有一定的作用。最后，剩余的用户按照消费间隔(recency)和消费等级