索引
CausalNLP: A Practical Toolkit for Causal Inference with Text[1] - 文本应用因果推断的工具箱
论文大要及目的
本文解决的问题是如何将文本视作因果推断的观察数据的变量(text as observational data),区别于以往数字(numeric)或类别(categorical)类型。文本将用做treatment 或 confounding variable来推断某种结果,如下例:
文字是treatment还是结果?一封募捐电子邮件的可读性如何影响是否捐款?
对是否捐款有何影响?或者,电子邮件中的礼貌性对客户服务部门的快速回复有什么影响?
或者,电子邮件中的礼貌性对客户服务部门快速回复的影响是什么?这两个问题都涉及文本
是导致某些结果的潜在原因。
Python项目源码地址: https://github.com/amaiya/causalnlp.
Meta-learner (详见Causal Inference on Machine learning 等资料)
元学习器 - Metalearners 是CATE(Conditional Average Treatment Effect)估计器,可对两个响应面建模、或多个响应面、 到分别建模。 其中每个估计阶段都可以是任意的 ML 方法(例如 TLearner 和 RLearner
元学习器的基本思想是利用底层的机器学习模型(称为基础学习器)来预测来自协变量(即非治疗的辅助自变量)的反事实结果估计值 (counterfactual outcome estimate)。
元学习器运用文本
- 生文本文件作为控制变量: 将文本作为额外的协变量(如混杂因素)纳入meta-learner,