《因果推理原理：基础与学习算法》第一章因果模型和统计模型

本文链接：https://blog.csdn.net/qq_40379678/article/details/106177128

利用统计学习，我们试图从观测数据中推断出随机变量之间的相关性。例如，基于对两个随机变量的联合观察样本，我们可以构建一个预测器，该预测器在只给出其中一个变量的新值的情况下，可以很好地估计另一个变量。这种预测背后的理论已经得到了很好的发展，尽管它只适用于简单的环境，但已经为从数据中学习提供了深刻的见解。由于两个原因，在本章我们将描述这些中的一些见解。首先，这将帮助我们理解因果推理的问题有多困难，其中潜在的模型不再是一个固定的随机变量联合分布，而是一个包含多个这样的分布的结构。第二,尽管有限样本结果的因果估计是稀缺的, 但是我们要知道当我们谈到更复杂的因果关系时，基本的统计估计问题不会消失,即使他们和 “从来没有出现在纯粹的统计学习的因果律问题” 相比看起来微不足道。在前面的基础上，本章还用两个例子对因果律的基本概念进行了简单的介绍，其中一个例子在机器学习中很常见。

1.1 概率论与数理统计

概率论与数理统计建立在随机实验或概率空间(W;F;P)的基础上。这里，W是一个集合(包含所有可能的结果)，F是一个collection，每个元素都是A⊆W，P是一个指定每个事件概率的方法。在给出前面的数学结构的前提下，概率论允许我们对随机实验的结果进行推理。换句话说，统计学习本质上是处理逆问题：我们得到了实验的结果，从这个结果我们可以推断出基本的数学结构的性质。例如…
几乎所有的统计和机器学习都建立在i.i.d数据的基础上。实际上，i.i.d假设可能以各种方式被违背，例如，如果在系统中发生分布移位或干预。我们将在后面看到，其中一些与因果律有着错综复杂的联系。

我们现在可能对PX;Y的某些性质感兴趣，例如:
(i)给定输入的输出期望，f (x) = E[Y|X = x]，称为回归，通常Y = R
(ii)一个二元分类器，将每个x赋给更可能的类f (x) = argmax{y} P(Y = y|X = x)，其中Y = {±1}，
(iii)分布P(X;Y)的概率密度函数p(X;Y) (假设存在)

在实践中，我们试图从有限的数据集来估计这些特性，即基于样本，或者换种说法，基于对每个样本点给予相同权重的经验分布 $P^n_{X,Y}$ 。

这构成了一个逆问题 : 我们想要基于对底层对象操作(在本例中是对未知分布的采样)获得的观察结果来估计一个我们无法观察到的对象的属性(底层分布)。

1.2 学习理论

现在假设就像我们可以从P(X;Y)中得到f一样，我们用经验分布来推断经验估计 $f^n$ 。这是一个不适定的问题，因为对于任何我们在样本中没有看到的x值，它的条件期望不确定。但是，我们可以在观察到的样本上定义函数f，并根据任何固定的规则对其进行扩展。但对于任何这样的选择，输入值的小变化，也就是经验分布的小变化，都可能导致输出的大变化。不管我们观察了多少次，经验分布通常不会完全接近真实分布，这个近似中的小误差可能导致估计中的大误差。这意味着，如果没有关于选择 $f^n$ 的经验估计值的函数类的额外假设，我们就不能保证估计值将在合适的意义上近似于最优数量f。在统计学习理论中，这些假设是以容量度量来形式化的。如果我们使用的函数类非常丰富，能够适应大多数可以想象的数据集，那么如果我们能够适应手头的数据，就不足为奇了。但是，如果函数类是先天限制为只有小容量的，那么我们可以使用该类中的函数来解释的数据集(在所有可能的数据集空间之外)就很少。如果事实证明我们可以解释手头的数据，那么我们就有理由相信我们发现了数据背后的规律性。在这种情况下，我们可以给出解决方案的概率保证精度的未来数据采样从相同的分布P(X;Y)。

另一种考虑方法是，我们的函数类已经将先验知识(例如函数的平滑性)与观察到的数据的规律性相结合。这些知识可以以不同的方式整合，不同的机器学习方法处理问题的方式也不同。在贝叶斯方法，我们指定了函数类和噪声模型的先验分布。在正则化理论中，我们构造合适的正则化算子，并将其引入到优化问题中，使给我们的解增加一个偏置。

统计学习的复杂性主要来自于这样一个事实:我们试图解决一个基于经验数据的逆问题——如果我们得到完整的概率模型，那么所有这些问题都会消失。当我们讨论因果模型时，我们会发现，在某种意义上，因果学习问题更难，因为它在两个层面都是不适定的。除了统计上的不适定，这本质上是因为任意大小的有限样本永远不会包含关于底层分布的所有信息，还有有一种不适定性是因为，通常即使完全了解一个观测分布也不能决定潜在的因果模型。

。。。

这一理论并不与普遍一致性的现有结果相矛盾，普遍一致性指的是学习算法收敛于任何函数的最低可实现风险。有一些学习算法是普遍一致的，例如最近邻分类器和支持向量机[Devroye et al.， 1996, Vapnik, 1998, Scholkopf and Smola, 2002, Steinwart and Christmann，等，]
2008]。尽管普遍一致性本质上告诉我们，在无限数据的极限下可以学习所有的东西，但这并不意味着由于速率缓慢的现象，每个问题都可以从有限的数据中很好地学习。对于任何学习算法，都存在学习率任意缓慢的问题[Devroye et al.， 1996]。然而，它确实告诉我们，如果我们修正分布，并收集足够的数据，那么我们最终可以任意地接近最低风险。

在实践中，最近机器学习系统的成功似乎表明，我们有时确实已经处于这种渐近状态，通常会产生惊人的结果。为了从给定的数据集中获得可能的最佳结果，在设计最具数据效率的方法方面进行了大量的思考，并且在构建大型数据集方面进行了大量的工作，使我们能够训练这些方法。然而，在所有这些情况下，至关重要的是，培训和测试之间的潜在分布不存在差异，无论是通过干预措施还是其他变化。正如我们将在本书中讨论的那样，将潜在的规律性描述为一个概率分布，而没有附加的结构，并不能为我们提供描述可能变化的正确方法。

1.3 因果建模与学习

因果模型从另一个更基本的结构开始。因果结构包括一个概率模型，但它包含后者所不包含的额外信息(见第1.4节的例子)。因果推理，根据这本书中使用的术语，表示从一个因果模型得出结论的过程，类似于概率论让我们对随机实验的结果进行推理的方式。然而，由于因果模型比概率模型包含更多的信息，因果推理比概率推理更强大，因为因果推理允许我们分析干预或分布变化的影响。

就像统计学习是概率论的逆问题一样，我们可以考虑如何从它的经验意义中推断因果结构。经验意义可以是纯粹的观察性的，但它们也可以包括干预(例如，随机试验)或分布变化下的数据。研究人员使用不同的术语来指代这些问题，包括结构学习和因果发现。我们指的是一个紧密相关的问题，即因果结构的哪些部分原则上可以从联合分布中推断出来，作为结构的可识别性。与1.2节中描述的统计学习的标准问题不同，即使完全了解P，也不会使解决方案变得微不足道，我们需要额外的假设(参见第2、4和7章)。但是，这个困难不应使我们忽视这个事实,即通常的统计学里的ill-posed-ness问题（不适定）仍然存在(因此担心函数类的能力是很重要的因果关系,如利用加性噪声模型- 4.1.4节),只是被一个额外的困难混淆了——我们试图估计更丰富的结构不仅仅是一个概率模型。我们将把这个整体问题称为因果学习。图1.1总结了上述问题与模型之间的关系。

为了从观测分布中学习因果结构，我们需要了解因果模型和统计模型之间的相互关系。我们将在第4章和第7章回到这个问题，但现在提供一个例子。一个著名的观点认为，相关性并不意味着因果关系;换句话说，统计特性本身并不能决定因果结构。不太为人所知的是，人们可能会假定，虽然我们不能推断出具体的因果结构，但我们至少可以从统计上的相关性推断出因果联系的存在。

Principle 1.1 (Reichenbach’s common cause principle) If two random variables X and Y are statistically dependent (X 6?? Y ), then there exists a third variable
Z that causally influences both. (As a special case, Z may coincide with either X
or Y .) Furthermore, this variable Z screens X and Y from each other in the sense
that given Z, they become independent, X ?? Y jZ.

在实践中，产生依赖的原因也可能与“共同原因原则”中提到的原因不同，例如:(1)我们观察到的随机变量受其他变量的制约(通常由选择偏差隐含)。我们将回到这个问题上来;看到评论6.29。(2)随机变量似乎只是相关的。例如，它们可能是对大量随机变量的搜索过程的结果，这些随机变量在运行时没有经过多次测试校正。在这种情况下，推断变量之间的依赖关系不满足期望的类型I错误。（看因果推理的课看了第一节总章，大概有三种模型）。

1.4 两个例子

1.4.1 模式识别

我们用手写数字识别作为第一个例子，这是一个在机器学习中被广泛研究的问题。这不是一个精选的具有普适性的因果结构的例子，但它可能对熟悉机器学习的读者有启发意义。我们描述两个导致两个随机变量之间依赖关系的因果模型，我们将假设这两个随机变量是手写数字X和类标签Y。这两个模型将导致相同的统计结构，但是是使用不同的潜在因果结构。

模型(i) 假设我们的观察结果是这样来的：我们给人类写手提供一系列类别标签Y，然后他们根据标签写出相应的数字，扫描成手写数字图片。我们假设人类写手试图做得很好，但是在阅读感知类标签和执行绘制图像的电机程序时可能会有噪声。我们可以通过将图像X作为类标签Y(建模为一个随机变量)、一些独立的噪声Nx(参见图1.3，左)的函数(或机制) f 来对这个过程进行建模。然后我们可以从PY PNX和f中计算出P(X;Y)这被称为观测分布，观测这个词指的是我们在没有干预的情况下被动地观察系统。X和Y是相关的随机变量，我们可以通过观察数据来学习X和Y之间的映射并通过图像X更好地预测正确的标签Y。

在这个因果结构中有两种可能的干预会导致干预分布。如果我们对生成的图像X进行干预(通过操作它，或者在生成后将它转换为另一个图像)，那么这对提供给编写器并记录在数据集中的类标签没有影响。在形式上，改变X对Y没有影响，因为Y:= NY。另一方面，对Y进行干预相当于更改提供给编写器的类标签。这显然会对生成的图像产生强烈的影响。形式上，改变Y对X有影响，因为X:= f(Y;NX)。这种方向性在图中的箭头中是可见的，我们认为这个箭头代表了直接的因果关系。
在另一个model (ii)中，我们假设不向人类写手提供类标签。相反，写手被要求自己决定写哪个数字，并在旁边记录类标签。在本例中，图像X和记录的类label Y都是写手的意图的函数映射(将写手意图称为Z，并将其视为一个随机变量)。概括地讲，我们假设不仅生成图像的过程是有噪声的，而且记录类标签的过程也是有同样具有独立的噪声项的(参见图1.3，右侧)。
注意，如果选择适当的函数和噪声项，我们可以确保模型(ii)包含一个与(i)模型相同的观测分布P(X;Y)。
现在让我们讨论模型(ii)中可能的干预。如果我们对图像X进行干预，那么事情就像我们刚才讨论的那样，类标签Y不受影响。但是，如果我们对类标签Y(即，我们改变了作者所记录的类标签)，然后不像以前这不会影响图像X。

综上所述，在不限制所涉及函数和分布类别的情况下，(i)和(ii)中描述的因果模型在X和Y上可以导出相同的观测分布和不同的干预分布。这种差异在纯粹的概率描述中是不可见的(所有东西都来自P(X;Y))。然而，我们能够通过结合P(X;Y)的产生过程这种结构化知识，特别是图结构、函数和噪声项，来讨论这种差异。

模型(i)和(ii)是结构因果模型(SCMs)的例子，有时被称为结构方程模型[例如，奥尔德里奇，1989年，胡佛，2008, Pearl, 2009, Pearl et al.， 2016]。SCM中，所有依赖关系都是由从其他变量计算变量的函数生成的。至关重要的是，这些函数要作为映射来理解，也就是说，作为计算机科学中的函数来理解，而不是作为数学方程来理解。我们通常认为它们是物理机制的模型。SCM包括对所有可观测对象的联合分布。我们已经看到，不同的SCM可以产生相同的分布，因此，当我们从SCM转换到相应的概率模型时，有关干预效果的信息(以及有关反事实的信息，我们将在第6.4节中看到)可能会丢失。这本书中，我们把SCMs作为出发点，后续所以内容会从这个点展开。

我们以例子的两点作为结论：
首先，图1.3很好地说明了Reichenbach’s common cause principle。X和Y之间的依赖关系提供了几种因果解释，如果我们以右边图中的Z为条件，X和Y就变得独立:图像和标签没有共享意图中不包含的信息。
第二，有时有人说，因果关系只能在考虑到时间概念的情况下讨论。事实上，在前面的例子中，时间确实发挥了作用，例如排除了对X的干预会影响类标签。然而，这是完全ok的，而且统计数据集由及时发生的过程生成是相当普遍的。例如，在模型(i)中，X和Y之间统计相关性的根本原因是一个动态过程。写手阅读标签Y，计划一个动作，包括大脑中的复杂过程，最后使用肌肉和笔来执行这个动作。虽然这个过程只是部分被理解的，但它肯定是是一个物理的，动态的，其最终结果导致一个有意义的X和Y的联合分布。当我们进行统计学习时，我们只关心最终结果。因此，不仅是因果结构，而且纯粹的概率结构也可能通过在时间上发生的过程而产生——事实上，你可以认为这是最终产生它们的唯一方式。然而，在这两种情况(因果和概率)下，忽视时间往往是有益的。在统计学中，讨论统计相关性等概念通常不需要时间。在因果模型中，讨论干预的效果通常不需要时间。但这两种层次的描述都可以被认为是一种更精确的物理模型的抽象，它比任何一种都更全面地描述了现实;see Table 1.1. 此外，请注意模型中的变量不一定是定义良好的时间实例。例如，如果一个心理学家调查动机和学生表现之间的统计或因果关系，这两个变量都不能很容易地分配到特定的时间实例。引用定义明确的时间实例的测量在物理和化学等“硬”科学中相当典型。

1.4.2 基因微扰

我们在1.4.1节中已经看到，不同的因果结构导致不同的干预分布。有时，我们确实对预测随机变量在这种干预下的结果感兴趣。从遗传学的角度来看，下面的例子在某些方面过于简单化了。假设我们得到了A基因的活动数据，相应地，也得到了表现型的测量结果。很明显，这两个变量是紧密相关的。这种相关性可以用于经典预测:如果我们观察到基因A的活性在6左右，我们预计表型在12和之间16有很高的概率。对于基因B(左下)也一样。另一方面，我们也可能有兴趣预测删除基因A后的表现型，也就是将其活性设置为0后的表现型。然而，如果对因果结构一无所知，就不可能给出一个有意义的答案。如果基因A对表现型有因果影响，我们预计干预后会发生显著变化(见右上方)。事实上，我们仍然可以使用从观测数据中学到的线性模型。如果，或者，有一个共同的原因，可能是第三个基因C，同时影响基因B的活性和表型，那么对基因B的干预不会对表型产生影响(见右下角)。

在模式识别的例子中，再次选择了这样的模型，即基因A上的联合分布和表现型等于基因B和表现型上的联合分布。因此，即使样本量趋于无穷大，也无法仅从观测数据来区分顶部和底部的情况。总而言之，如果我们不愿意使用因果关系的概念，我们必须回答“我不知道”的问题，预测基因删除后的表现型。

总结：基本就是edx网课第一章的内容，例子换成机器学习方面的例子，没有网课更加有普适性。