归因分析笔记2:因果正则化学习论文

lagoon_lala

已于 2022-02-22 09:38:29 修改

阅读量2.4k

点赞数 2

分类专栏：科研技巧人工智能文章标签：学习机器学习深度学习

于 2022-02-17 20:33:09 首次发布

本文链接：https://blog.csdn.net/lagoon_lala/article/details/122989201

版权

人工智能同时被 2 个专栏收录

90 篇文章

订阅专栏

科研技巧

12 篇文章

订阅专栏

本文提出了一种名为因果正则化逻辑回归（CRLR）的新方法，用于处理具有不可知选择偏差的数据学习问题。CRLR结合了因果推理和加权逻辑回归，通过全局混杂平衡优化样本权重，以识别和利用稳定的因果特征。实验表明，CRLR在合成数据和真实数据集上优于传统相关性基础的模型，具有更好的预测性能和可解释性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

因果正则化学习

Matlib代码

https://github.com/Silver-Shen/Causally-Regularized-Learning

论文

https://dl.acm.org/doi/10.1145/3240508.3240577

估计变量对输出的因果影响

基于观测数据的因果推理，有代表性的方法有倾向得分匹配或加权[2，3，15]、马尔可夫毯子[13，25]和混杂均衡[1，12，14]

思想

他们在做了那种先因果推理，再进行模型构建的, 没有这种联合优化效果好

这个文章本质就是优化样本权重, 但是他的原理是因果推理，也就是这种样本权重可以突出特征与标签之间的因果关系，排除一些虚假的相关性.

假如某个特征对结果的因果贡献大，那么就增加这个样本的权重，模型训练的时候就会侧重这个样本，相当于侧重了那个特征，模型就会向这个特征的方向倾斜更多

补充

目前的问题是, 这篇论文里所有特征都是01, 他都处理了.

模型输入的特征没有实际意义, 但是他最后还是能还原到图片上.

作者回信:

这篇文章当时是采用了Bag of Visual Words的特征提取方式，每张图片被抽象成了M维的词袋向量，每一维特征代表一个特定的visual word，可以被映射回原先的图像当中，一些示例可参考 (https://ww2.mathworks.cn/help/vision/ug/image-classification-with-bag-of-visual-words.html?s_tid=srchtitle_Bag%20of%20word_2)

4.5 Office-Caltech 数据集的实验

4.6.在微信ADS数据集上的实验

5. 总结结论与讨论

代码

摘要

选择偏差问题

以往的机器学习算法大多是基于I.I.D.提出的。假设。然而，这一理想假设在实际应用中经常不成立，在训练和测试过程之间可能会出现选择偏差(selection bias)。此外，在许多场景中，测试数据甚至在训练过程中都是不可得的，这使得迁移学习等传统方法由于需要测试分布的先验而变得不可行。因此，如何解决稳健模型学习中的不可知性选择偏差问题，无论在理论研究还是实际应用中都是至关重要的。

CRLR算法

在假设变量之间的因果关系是跨域稳健的前提下，将因果技术应用于预测建模，通过联合优化全局混杂均衡和加权Logistic回归(algorithm by jointly optimize global confounder balancing and weighted logistic regression)，提出了一种新的因果正则化对率回归(Causally Regularized Logistic Regression , CRLR)算法。

全局混淆器平衡(optimize global confounder balancing)有助于识别因果特征，这些因果特征对结果的因果效应是跨域稳定的，然后对这些因果特征进行Logistic回归，构建一个针对不可知性偏差的稳健预测模型。

实验

为了验证CRLR算法的有效性，我们在合成数据集和真实数据集上进行了全面的实验。实验结果表明，我们的CRLR算法比目前最先进的方法有更好的性能，并且我们的方法的可解释性可以通过特征可视化得到充分的刻画。

协变量漂移(covariate shift)下的CCS学习；正则化；

关键词

因果推断(Causal Inference)；数据选择偏差(Data Selection Bias)；因果正则化(Causal Regularizer)

1.引言

不可知性数据选择偏差agnostic data selection bias

传统机器学习中的一个常见假设是，测试数据与训练数据为独立相同分布(即I.I.D假设)。然后，从训练数据中学习的模型可以直接应用于对测试数据进行经验误差最小的预测。违反IID所带来的危险和风险, 在传统的机器学习方法往往忽略，虽然这些方法在图像分类、语音识别、目标定位等许多困难的任务中取得了显著的成功，但在许多实际应用中，我们不能完全控制数据采集过程，那么选择偏差可能会导致不符合I.I.D.假设。此外，在大多数情况下，测试数据在训练过程中是不可见的，因此对测试数据的选择偏差变得不可知。因此，在不考虑不可知性数据选择偏差的情况下，现有的预测模型对不同的有偏数据缺乏稳健性，其预测结果可能是不可靠的。如图1所示，用于识别狗的分类器主要由狗在草地上的图像来训练，而通过草环境中的狗的图像(即I.I.D.情况)和雪地环境中的狗的另一图像(即非I.I.D.)来测试。案例)。基于相关性的方法可以在IID中取得成功。例如，但在非IID上不起作用。举个例子。失败的主要原因是草类特征在分类器中被赋予了较高的权重，因为它们与训练集中的标签高度相关，但它们并没有出现在测试图像中。

图1. 基于相关性和基于因果关系的方法在解决非I.I.D.问题时的差异

过去方法与本方法对比

最近，有几种旨在解决非IID问题的文献。由选择偏向引起的问题。基于特征空间变换[8，19，21，27]、不变特征学习[10，33]和分布匹配[20，34]，提出了多种领域自适应方法。然而，这些方法需要关于测试数据的先验知识，这在一些实际应用中可能是不可用的。

为了克服这一困境，提出了领域泛化方法，主要基于仅使用训练数据学习领域无关模型或不变表示的想法[11，17，22]。这些方法假设训练数据中已知的选择偏差(由不同的领域描述)，不能很好地推广到不可知选择偏差。

在这项工作中，我们研究了在不知道测试数据或训练数据的领域信息的情况下(之前是已知训练集偏差, 现在训练测试都不知道)，具有不可知数据选择偏差的数据上的学习。与以往的所有工作相比，目标问题更具一般性，在实际应用中更具实用性。

解决不可知性选择偏差常用方法

解决不可知性选择偏差的一个合理方法是学习一个带有因果变量的预测模型，该模型对结果变量的影响不受选择偏差的影响。在寻找这些因果变量时，因果推断的文献给了我们很大的启发，它是发现因果变量和结构的强大统计工具。众所周知，因果变量在不同的领域或数据选择偏差之间是稳定的，这是因为在识别因果变量时对混杂效应(confounding effects)的严格审查[26]。

因果变量的稳定性主要体现在: 跨域时, 对于给定的因果变量, 结果变量的条件分布保持不变(the conditional distribution of outcome variable given those causal variables remains invariant)。相反，相关变量不具备这一特性。

识别变量因果效应的黄金标准是进行随机试验，如A/B检验。但完全随机的实验通常代价高昂，在某些情况下甚至是不可行的。然而，只要满足无混淆性假设(unconfoundedness assumption)[26]，即包括所有混杂因素，并且在给定观察变量时，处理的分布(distribution of treatment)与潜在结果无关，我们就可以直接从观察数据中准确地估计因果效应。近年来，基于观测数据的因果推理变得流行起来，有代表性的方法有倾向得分匹配或加权[2，3，15]、马尔可夫毯子[13，25]和混杂均衡[1，12，14]等，但这些方法大多是为了估计变量对输出的因果影响，很少有方法利用因果关系，特别是因果关系在不同环境下的稳定性。

之前方法缺点

为了将因果分析与非独立同分布结合起来。在学习的过程中，我们仍然面临着两个挑战。

1. 现有的因果分析方法是在设计良好的环境下提出的，通常只考虑少量的处理变量(treatment variables)。然而，在机器学习问题的高维环境中，我们对因果关系的先验知识很少，因此必须将所有变量都视为处理变量。这使得现有的因果模型由于计算复杂度高而变得不可行。

2. 虽然我们可以先选择因果变量，然后根据这些变量学习模型，但这种方法对因果变量选择的阈值在统计上很敏感，而且逐步(step-by-step)方法在实践中很难优化。因此，设计一种可扩展的因果学习方法来解决有数据选择偏差的预测问题是非常重要的。

本文方法

在本文中，我们主要考虑分类问题，并提出了一种新颖的因果正则化逻辑回归 (CRLR) 模型，用于对具有不可知选择偏差的数据进行分类。该模型由加权逻辑损失项和精心设计的因果正则化项组成。

具体来说，因果正则化器旨在通过样本重新加权直接平衡每个处理特征的混杂分布。为了降低模型的复杂性，我们提出了一种全局样本重加权方法，该方法学习一个通用的样本重加权矩阵，以最大限度地平衡所有处理特征的混杂因素。通过这种方式，加权逻辑损失和因果正则化器被联合优化，从而得到具有预测能力和因果含义的回归系数。这些优点使生成的模型能够执行准确和稳定的预测，而不会受到不可知选择偏差的严重影响

本文贡献

本文的技术贡献有三方面：

1. 我们研究了一个关于不可知选择偏差的数据学习的新问题。问题设置比之前的领域适应和领域泛化等工作更通用，更适合实际应用。

2. 我们将因果推断引入预测建模，并提出了一种新颖的因果正则化逻辑回归模型来解决上述问题，其中因果正则化器和预测损失以有效的方式联合优化。

3. 我们对合成数据和真实数据进行了广泛的实验，实验结果证明了我们的方法在学习具有不可知偏见的数据方面的优越性。我们方法的可解释性也是一个显著的优点

其余部分组织如下。第 2 节回顾了相关工作。第 3 节描述了问题的表述和我们的 CRLR 算法。第 4 节给出了实验结果。最后，第 5 节总结了本文

2.相关工作

简要回顾和讨论以前的相关工作，这些工作可分为领域适应、领域泛化和因果推理

为了解决非I.I.D.问题，人们提出了多种领域适配方法。

1. 域自适应

域自适应的一种直觉是改变源域分布以对齐目标域分布，并提出了各种技术，如拒绝抽样[34]和偏见感知概率方法[18]。另一种直觉是学习特征空间中的变换或直接学习领域不变的特征表示[8，10，19-21，27，33]，利用强大的表示学习技术，如深度神经网络。

2. 领域泛化

与领域适应密切相关的一项任务是领域泛化，而测试数据在训练过程中是不可用的。在该设置中，学习时基于多域训练数据的域不可知分类器[11、17、22]，并将其应用于对不可见域进行预测。

其他方法缺点:

所有上述方法要么需要测试数据的先验知识，要么需要训练数据的显式域分离，这在许多实际应用中是不切实际的。在这项工作中，我们研究了一个更普遍和更具挑战性的问题，即在具有不可知性选择偏差的数据上进行学习，其中训练和测试数据中的偏差都是未知的。我们的目标问题不同于以往的工作，在真实场景中更具实用性。

3. 因果推理

因果推理是用于解释性分析的强大统计建模工具。估计因果效应的主要问题是平衡混杂因素在不同处理水平上的分布(balance the distributions of confounders across different treat-

ment levels)。

Rosenbaum和Rubin[26]提出通过倾向得分匹配或重新加权来达到平衡。

(1) 倾向得分

基于倾向得分的方法已被广泛应用于各个领域，包括经济学[28]、流行病学[9]、卫生保健[7]、社会科学[16]和广告[29]。但这些方法只能处理一个或几个处理变量，不能直接应用于多媒体任务，在多媒体任务中，大量的特征通常被视为潜在的处理变量。

(2) 样本权重

有越来越多的文献建议直接优化样本权重以平衡混杂分布。Hainmueller在[12]中引入了熵平衡，通过指定的样本矩直接调整样本权重。AThey et al.。文献[1]提出了通过套索残差回归调整来学习样本权重的近似残差平衡方法。Kuang et al.。[14]学习了不同权重的混杂因子和均衡混杂因子分布用于处理效果评价。

这些方法提供了一种在不需要知识结构先验的情况下估计因果效应的有效方法，但它们针对单个处理变量对样本进行加权，不能直接应用于预测建模。我们将使重新加权平衡技术适用于我们目标的大规模因果效应探索环境。

3.问题的表述和CRLR 算法

在这一部分中，我们提供了问题的表述，对因果推理、混杂因子平衡的一些关键概念进行了初步的介绍，并详细介绍了我们提出的因果正则化Logistic回归(CRLR)方法。

3.1问题表述

在这里，我们制定了我们的目标问题，即对具有不可知性选择偏差的数据进行分类

问题1(对具有不可知性选择偏见的数据进行分类)。

…粗读公式掠过…

在不可知性选择偏向设置下，我们不知道分布如何从训练数据转移到看不见的测试数据。

为了解决这一具有挑战性的问题，我们引入了因果推理这一强大的统计建模工具。因果推理的关键问题是估计每个变量对结果的因果效应，也就是确定因果变量，它可以直接由珀尔的因果DAG[24]中的结果父节点来定义。当我们将每个变量设置为处理变量来估计其对预后的因果效应时，其他变量被视为混杂变量。如前所述，因果变量在不同选择偏向下的稳定性使得它们在我们的目标问题中比相关变量更合适。

为了将因果推理应用于分类问题，我们将每个特征Xj视为一个被处理变量(即处理)，所有剩余的特征X_{−j}=X\Xj视为混杂变量(即混杂变量)，标签Y为结果变量。由于我们没有关于因果结构的先验知识，将每个变量视为处理而将所有其他变量视为混杂因素是合理的方法[12]。在不失一般性的前提下，为了便于讨论和理解，我们假设所有的特征和标签都是二进制的(分类的和连续的特征可以通过装箱和一次热编码转换成二进制的)。给定一个特征作为处理，如果该特征在样本中出现(或没有出现)，则该样本成为被处理样本(treated (or control) sample)。为了安全地估计标签Y上给定特征Xj的因果贡献，必须去除由于混杂因子X_{−j}在处理组和对照组之间的不同分布而引起的混杂偏差。在去除混杂偏差后，处理组和对照组之间的标签Y的差异可以看作是特征Xj对标签Y的因果贡献

由于因果贡献率β∈R^{P×1}在不同领域具有健壮性和稳定性，我们可以将具有不可知性选择偏差的数据的分类问题无缝地转化为下面的因果分类问题

问题2(因果分类问题)

给定训练数据D=(X，Y)，其中X∈Rn×p表示特征，Y∈Rn×1表示标签，任务是联合识别所有特征的因果贡献β∈Rp×1，并学习基于β的分类器fβ(·)用于分类。

因果分类问题的关键是如何联合优化因果贡献识别(the causal contribution identification and classification)和分类。在本文中，我们提出了一种由因果正则化和Logistic回归项组成的协同学习算法。

3.2混杂平衡

在这里，我们简要介绍一些混杂平衡的必要背景，这些背景对我们设计因果正则化器有启发。在观察性研究中，需要平衡混杂因素(特征)分布以纠正非随机处理分配的偏差。由于矩(moments)可以唯一地确定分布，混杂平衡方法通过调整样本的权重直接平衡混杂矩(moments)[1,12,14]。样本权重 W 通过以下方式学习

…粗读公式掠过…

分别表示有和没有处理的样本上混杂因素的平均值。在混杂因素平衡之后，处理变量和输出变量之间的相关性代表因果效应。这里只考虑一阶矩（对于二元变量来说足够）。 1 和更高阶的矩可以通过包含更多特征轻松合并。请注意，混杂平衡技术旨在估计单个处理特征的因果效应。在我们的例子中，我们需要估计所有特征的因果效应。这意味着我们需要学习 p × n 样本权重，这在高维场景中显然是不可行的。因此，我们在 3.3 节中提出了一种全局平衡方法作为因果正则化器。

3.3 因果正则逻辑回归

受混杂平衡法的启发，我们提出了一个因果正则化器，将每个特征依次设置为处理变量，并找到这样一组最佳样本权重W，使得处理组和对照组的分布可以平衡任何处理变量。

…粗读公式掠过…

然后我们将因果正则化器和逻辑回归模型结合起来，提出了因果正则化逻辑回归（CRLR）算法来联合优化样本权重W和回归系数β

…粗读公式掠过…

在传统的逻辑回归模型中，回归系数捕捉特征和标签之间的相关性。但是高度相关的特征并不意味着由于混杂偏差而导致的因果关系。在我们的模型中，从因果正则化器中学习到的样本权重能够纠正偏差并全局平衡任何处理特征的处理组和对照组的分布。因此，估计的系数 β 可以暗示因果关系并同时对标签具有预测能力。

3.4优化

在等式中优化上述模型的目标

…粗读公式掠过…

方程中的最终优化问题很难得到解析解。我们用迭代优化算法来解决它。首先，我们初始化样本权重 W 和因果贡献 β。然后在每次迭代中，我们首先通过固定 W 来更新 β，然后通过固定 β 来更新 W。

…粗读公式掠过…

迭代更新 β 和 W 直到目标函数 (4) 收敛。整个算法总结在算法 1 中

算法

3.5 复杂性分析

在优化过程中，主要开销是计算损失J(W,β)，更新因果特征权重β和样本权重W。我们分别分析它们的时间复杂度。对于loss的计算，它的复杂度是O(np^2)，其中n是样本大小，p是变量的维度。对于更新 β，这是标准的弹性网络问题，其复杂度为 O(np)。对于更新 W ，复杂性主要由计算函数 J (ω) 相对于变量 ω 的部分梯度的步骤决定。 ∂ J(ω)/∂ω 的复杂度为 O(np^2)

总的来说，算法 1 中每次迭代的复杂度为 O(np^2)。

4.实验结果

4.1 数据集

在本文中，我们使用合成数据集和真实世界数据集来验证我们提出的 CRLR 算法的有效性

合成数据集：生成具有独立高斯分布的预测变量

为了测试我们的算法对具有不可知选择偏差的数据的有效性，我们通过改变 P(Y|V) 的分布来生成不同的偏差数据。具体来说，我们通过偏差率 r ∈ (0, 1) 的偏差样本选择来改变 P(Y|V)。对于每个样本，如果其噪声特征 V 等于结果变量 Y，我们以概率 r 选择它，否则我们以概率 (1 -r) 选择它。注意r > 0.5 对应 Y 和 V 之间的正相关，r < 0.5 对应负相关，r = 0.5 表示 V 和 Y 是独立的。通过改变偏差率 r，我们可以产生不同的选择偏差。

YFCC100M [30] 是一个提供 1 亿张图像的大规模数据集，每张图像包含多个标签。为了模拟各种非i.i.d.在现实世界的情况下，我们构建了原始 YFCC100M 的一个子集，包括 10 个类别，一个类别中的图像分为 5 个上下文。例如，在狗类别中，5 个上下文是草地、海滩、汽车、海和雪。为了便于可视化和解释，我们使用 SURF [4] 和 Bag-of-Words [6] 作为特征来表示图像

微信广告是 2015 年 9 月从腾讯微信 App1 收集的真实在线广告数据集。对于每个广告，有两种类型的反馈：“喜欢”和“不喜欢”。该数据集包含 14,891 个喜欢和 93,108 个不喜欢的用户反馈。对于每个用户，我们有 56 个特征来表征他/她的个人资料，包括 (1) 人口统计属性，例如年龄、性别，(2) 朋友数量，(3) 设备（iOS 或 Android），以及 (4) 用户设置在微信应用程序上。对于一个或多个配置文件属性，很容易模拟具有不同选择偏差的多个子集。

Office-Caltech 数据集 Office-Caltech 数据集是来自四个不同领域（亚马逊、DSLR、网络摄像头和加州理工学院）的图像集合，平均有近千张标记图像。由于不同数据收集过程产生的偏差，Office-Caltech 数据集已普遍用于领域适应领域

4.2 Baselines

由于缺乏针对同一问题的直接相关工作，我们实现了几个经典的基于相关性的算法和一个基于两步因果关系(two-step causal-based)的算法来与 CRLR 进行比较。

基于相关性的算法:

我们将经典的逻辑回归（LR）作为最直接的基线，因为我们的模型基于 LR。为了避免过度拟合并获得更可解释的模型，我们还像 Lasso [31] 那样对逻辑回归 (LR+L1) 施加 L1 正则化器。我们还将 CRLR 与具有线性内核的支持向量机 (SVM) 和具有 3 个隐藏层的多层感知器 (MLP) 进行了比较。

两步因果算法:

此外，我们实现了一个直接的两步解决方案 (TwoStep)，它首先通过混杂平衡 [1] 执行因果特征选择，然后应用逻辑回归。

我们通过网格搜索和验证集通过交叉验证来调整算法和基线中的参数。请注意，在图像分类实验中，我们省略了与基于 CNN 的图像分类器的比较，因为在我们的数据集中仅使用数千张图像从头开始训练 CNN 模型是不可行的。同时，非 i.i.d.问题设置禁止我们使用预训练的深度模型，例如AlexNet，因为这些模型是用数百万张覆盖几乎所有可能上下文的图像进行训练的。在我们的实验中，我们的目标是评估小规模或中等规模训练数据经常发生的具有非独立同分布的问题

4.3 合成数据实验

我们在测试集上以不同的偏差率（从 0.1 到 0.9）测试算法，并计算平均 RMSE 和标准误差。我们将结果绘制在图 2 中。从结果中，我们可以清楚地看到，Logistic 回归的性能在不同训练设置的测试集上的不同偏差率下表现出剧烈波动（更大的标准误差），而我们提出的方法实现了相对更多稳定准确的预测结果。这是因为 CRLR 利用因果关系的稳定性并利用因果贡献而不是相关性进行预测。

4.4 YFCC100M数据集的实验

在这个实验中，我们模拟了非独立同分布。通过将不同的上下文划分为训练、验证和测试集的情况。对于每个类别，我们使用上下文 1、2、3 进行训练，使用上下文 4 进行验证，使用上下文 5 进行测试。由于每个类别都有不同的上下文(contexts)，因此不同类别之间的选择偏差可能会有很大差异。

此外，我们在训练集中的不同上下文之间进行了非均匀采样，使得上下文1/2/3分别占0.66/0.17/0.17个百分点。这一设定与视觉概念服从幂律分布(visual concepts follow a powerlaw distribution)的自然现象一致[5]，表明只有少数视觉概念是常见的，其余大多数是罕见的。我们用类似的概念将其转换到视觉环境中。

我们在表 1 中报告了准确度和 F1 的性能。从结果中，我们有以下观察结果。

(1) 我们的 CRLR 模型在几乎所有类别 (9/10) 中都取得了最佳性能。由于 CRLR 和标准逻辑回归模型之间的主要区别在于因果正则化器，我们可以安全地将显着改进归因于有效的混杂平衡项及其与逻辑回归模型的无缝结合

(2)两步法的性能比CRLR差很多，这清楚地表明了联合优化因果特征选择和分类的重要性。

(3)毫不奇怪，基于相关的分类方法在这种情况下效果不佳，主要是因为它们错误地将相关但非因果的特征放在重要位置，导致它们对数据选择偏差敏感。

一个有趣的问题是验证 CRLR 是否可以在偏差更严重的类别中表现得更好。

在这里，我们用训练图像的平均特征向量和测试图像的平均特征向量之间的 EMD 距离来量化类别的偏差水平。我们还通过其相对于最佳基线的 F1 值改进来量化 CRLR 的优势。然后我们在图 4 中显示结果。我们可以看到相对 F1 改进和类别偏差水平在一定程度上相关。极端情况更为明显。例如，狗类是最有偏见的，我们的 CRLR 在 F1 中的相对改进可以达到 50% 左右。相比之下，教会类别的偏差并不明显，这可以解释 CRLR 在表 1 中教会类别的表现一般。

图 4：数据中的上下文偏差越多，我们的 CRLR 算法的 F1 相对改进就越大

将因果关系引入预测任务的一个显着优点是使预测模型更易于解释。为了证明我们方法的可解释性，我们分别可视化了 CRLR 和 LR 选择的每个类别中的前 5 个特征。由于篇幅限制，我们仅在图 3 中展示了 4 个类别中的一些示例。

我们可以看到，CRLR 选择的大部分特征都定位在主要对象上。相比之下，LR选择的许多特征都是上下文特征。从可解释的角度来看，CRLR 可以充分解释为什么它将图像分类为狗类别，因为它检测到狗鼻子和皮毛等因果特征。我们仍然发现我们的方法在某些情况下会利用相关特征，如图 3.(m) 和 3.(o) 所示。这可能是因为训练类别中的偏差水平相当低，这削弱了因果正则化器的效果。

4.5 Office-Caltech 数据集的实验

在本实验中，我们使用 Office-Caltech 数据集来模拟由数据集偏差引起的隐式分布偏移 [32]。我们使用一个域进行训练，另一个域进行测试，枚举每个组合并报告平均准确度。

结果

从表 2 中，我们可以看到我们的 CRLR 算法在大多数设置下表现最好，即使在没有显式分布或域偏移的情况下也显示了我们算法的鲁棒性。另一个有趣的观察是，当我们在源域中的训练样本较少时，我们算法的优势更加明显。例如，亚马逊数据集比 DSLR 数据集大得多，我们的算法在 'd->a' 场景中优于最佳基线的优势比在 'a->d' 场景中更明显。这与我们的直觉一致，即选择偏差和非独立同分布。这与我们的直觉不谋而合，即当我们没有足够的训练样本时，经常会出现选择偏见和非I.I.D.问题，而我们的算法在这些场景下能够执行稳健的预测。

4.6.在微信ADS数据集上的实验

在本实验中，我们通过根据用户的年龄将用户分成不同的组来模拟测试数据和训练数据的分布差异。具体地说，我们根据用户的年龄将数据集分成4个子集，包括Age∈[20，30)，Age∈[30，40)，Age∈[40，50)，Age∈[50,100]。我们在用户的Age∈[20，30]上训练基线和CRLR，并在所有四个组上进行测试。

我们在图5中画出了每种算法的均方根误差。我们可以在Age∈[20，30)中看到，在没有选择偏差的情况下，我们的CRLR算法与基线相当。因为这是典型IID。在这种情况下，可以最大限度地利用特征和标签之间的相关性，并且大多数算法可以做出相当精确的预测。然而，当在年龄分布与训练数据不同的其他三组上进行测试时，CRLR的表现始终优于其他基线，并获得最小的误差。这主要是因为CRLR中的回归系数隐含了更稳定、对选择偏差引起的分布偏移不敏感的因果关系，而基于相关性的方法在这种情况下是非常不可靠的。我们也注意到两步法的性能并不令人满意。这表明了联合优化因果推理和预测建模的重要性。

5. 总结结论与讨论

本文研究了在具有不可知性选择偏差的数据上学习的一个新问题，该问题不同于以往的工作，在真实场景中更具实用性。

以前的方法

我们认为，大多数以前的方法只有在训练和测试数据符合I.I.D.的情况下才能保持它们的预测能力。假设或选择偏差在训练过程中是已知的，不能很好地推广到具有不可知性选择偏差的数据。而且，这些方法产生的结果很难被解释和用于进一步的决策。

本文方法

为了应对这些挑战，我们将因果关系引入预测模型，提出了一种新的因果正则化Logistic回归(CRLR)模型，用于联合优化加权Logistic损失和因果正则化。我们在合成数据集和真实数据集上进行了全面的实验，实验结果表明，在不同的环境下，我们的CRLR算法都优于传统的基于相关性的方法。我们还证明了CRLR选择的顶级因果特征可以提供可解释的洞察力。