《因果推断的python实现》序言_Matheus Facure

最近找了一些因果推断相关的书来读,找到一本营销和工业界例子较多的书,因为书是英文版的,因此记个笔记。书名《Casual Inference in Python——Apply Causal Inference in the Tech Industry》

引子:付费营销到底给公司带来了多少额外的客户?

查看图1,我们开始做付费营销后,我们确实看到来自付费营销的用户有在增长,但是我们同时也观测到,自然用户量有在下降,我们是不是可以认为,就算没有付费营销活动,用户也会自然来?我想你可以比较一下启动营销活动之前和之后的用户总数(包括有自然用户和付费用户)。但是,在一个快速发展和多种其他活动叠加的公司,你怎么知道当启动其他活动时,其他一切都没有改变(图2)。

图1

图片描述

图2

在这里插入图片描述

为什么需要因果推断,什么是因果推断

您需要了解更改您可以控制的某些内容(营销预算)对您希望影响的某些业务结果(用户)的影响。

因果推理是一门从关联关系中推断因果关系的科学,并理解何时及为何是因果关系而不是相关关系(Causal inference is the science of inferring causation from association and understanding when and why they differ)。

相关关系(association)是指两个量或随机变量一起移动,而因果关系是指一个变量的变化引起另一个变量的变化。

需要的前置知识

  • Python基础知识,包括最常用的库:Pandas、NumPy、Matplotlib、Scikit-learn。
  • 了解基本的统计概念,如分布、概率、假设检验、回归、噪声、期望值、标准偏差。如果你需要回顾的话,这些内容将在本书第二章中review。
  • 了解基本的数据科学概念,如机器学习模型、交叉验证、过拟合和一些最常用的机器学习模型(决策树、线性回归、逻辑回归)。
  • 高中数学知识,如函数,对数,矩阵和向量,以及一些大学水平的数学,如导数和积分。

本书结构

第一部分 介绍因果推理的基本概念

  • 第一章介绍了因果推理的关键概念,你可以用它们来简单推理降价对销量的影响。
  • 第二章讨论了A/B测试(或随机对照试验)的重要性。A/B测试不仅是一种决策工具,而且是用来衡量其他因果推断工具的黄金标准。第二章中也会回顾一些统计概念。
  • 第三章主要是理论性的,包括因果关系识别(casual identification)图模型(graphical models)。这些方法可以帮助我们得出对因果过程的假设,并告诉我们需要做什么,才能理清关联关系与因果关系。
    在完成第一部分之后,你应该有基本的基础来思考因果推理。

第二部分 介绍两种从相关性中解出因果关系的方法:线性回归(linear regression)倾向加权(propensity weighting)

*第4章介绍了线性回归,但不是从大多数数据科学家熟悉的角度。相反,您将学习一种重要的偏差消除技术:正交(orthogonalization)。

  • 第5章介绍了倾向得分(Propensity Score)和双重稳健估计( Doubly-Robust estimation.)。

第三部分 将第二部分的方法与机器学习和大数据技术结合。

你将研究因果推理作为个性化决策的工具。如,从送餐服务的角度来看,你会试图了解哪些顾客应该得到折扣券,哪些顾客不需要额外的奖励。

  • 在第6章介绍异质治疗效果(heterogeneous treatment effects)。
  • 第7章介绍了机器学习和因果推理交叉领域的最新发展。在本章中,您将学习T、X和S-learners 以及Double/Debiased Machine
    Learning等方法,所有这些方法都在第六章的个性化治疗的背景下展开。

第四部分 为因果推理增加了时间维度。

在某些情况下,你会在多个时间段内录得相同的客户,这就构成了所谓的面板数据集(panel dataset)。你将了解,即使不能随机选择哪批用户能看到你的广告,但你依然可以学习如何利用面板来揭示付费营销的真正影响。

  • 第8章将向你介绍最新的进展,包括该文献中的一些最新发展。
  • 第9章将涵盖综合控制(Synthetic
    Control),所用的例子,仍是付费营销活动的影响。

第五部分 深入研究替代实验设计(alternative experiment designs)

  • 第10章将介绍地质实验,其中的目标是找到要干预的部分和作为保持或对照的部分,以及折返实验,当你有很少的分析单位时,希望通过打开和关闭同一单位的治疗来计算出治疗效果。
  • 第11章深入研究了不合规的实验,并向您介绍了工具变量(IV)。它还简要介绍了不连续设计。

pdf网盘地址

链接: https://pan.baidu.com/s/1zcC1dXm0GuHzxnIZE0jgUA 提取码: rbfq
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值