论文阅读 3 | Few-shot Domain Adaptation by Causal Mechanism Transfer

摘要

  我们研究了用于回归问题的少样本监督域适应(DA)( few-shot supervised domain adaptation ) ,其中只有少数标记的目标域数据和许多标记的源域数据可用。许多当前的DA方法都是基于参数化的分布偏移或明显的分布相似性(例如,相同的条件或小的分布差异)来进行转移假设。然而,这些假设可能排除了适应错综复杂的移位和明显非常不同的分布的可能性。为了克服这个问题,我们提出了机制转移( mechanism transfer ) ,这是一种元分布场景,其中数据生成机制在不同领域是不变的。这种转移假设可以适应导致明显不同分布的非参数变化,同时为DA提供坚实的统计基础。 我们以因果模型中的结构方程为例,提出了一种新的DA方法,该方法在理论和实验上都被证明是有用的。我们的方法可以被看作是充分利用结构性因果模型进行DA的首次尝试。

1 简介

  从有限的数据中学习是机器学习中一个长期存在但仍被积极研究的问题。DA通过利用从相关但不同域中采样的辅助数据来解决这个问题。特别是,我们考虑了用于回归问题的少样本监督 DA,其中只有少数标记的目标域数据和许多标记的源域数据可用。DA方法的一个关键组成部分是将源分布和目标分布联系起来的转移假设(TA)。以前探索的许多 TA 都依赖于某些直接的分布相似性,如相同的条件或小的分布差异。然而,这些 TA 可能排除了来自明显非常不同的分布的适应的可能性。许多其他人假设分布变化的参数形式或分布族,这会极大地限制所考虑的分布集。(我们将在第 5.1 节中进一步回顾相关工作)。

  为了减轻先前 TA 因依赖明显的分布相似性或参数化假设而产生的内在局限性,我们关注元分布情况,即数据分布背后存在一个共同的生成机制(图1 图2)。这种通用机制在涉及医疗记录等结构化表数据的应用中具有更大的可能。例如,在病历分析中进行疾病风险预测,可以合理地假设存在一个跨地区或跨世代的病理机制,但由于文化或生活方式的不同,数据分布可能会有所不同。这种隐藏的结构(在这种情况下是病理机制)一旦被估计出来,就可能提供可移植的知识,使DA得以实现,使人们能够为未被充分调查的区域或新的世代获得准确的预测器。

  具体来说,我们的假设依赖于非线性独立分量分析的生成模型(非线性 ICA;图 1),其中观察到的标记数据是通过首先采样潜在独立分量 (ICs) S生成的,然后通过一个用f表示的非线性可逆混合函数进行转换而生成的。在这个生成模型下,我们的TA是,f表示的机制在各个域之间是相同的(图2)。这个TA使我们能够正式地将领域分布联系起来,并开发一种新的DA方法,而不需要假设它们明显的相似性或进行参数化的假设。
图1
图1 非线性相关分量分析的非参数生成模型。我们的元分布转移假设建立在模型上,其中存在一个可逆函数 f 表示从独立组件 (ICs) S中采样的生成标记数据 (X, Y) 的机制。 因此,每一对 (f, q) 定义了一个联合分布 p。

在这里插入图片描述
图2 我们对共同生成机制的假设。通过捕获通用数据生成机制,我们可以在看似非常不同的分布之间进行域适应,而不依赖于参数假设。

  我们的贡献。 我们的主要贡献可以概括为以下三个方面。

  1. 我们制定了灵活而又直观易懂的共享生成机制的TA,并开发了一种少样本回归DA方法(第3节)。其想法如下。第一,从源域数据中,我们通过非线性 ICA 估计混合函数 f,因为 f 是域的唯一假设关系。然后,为了转移知识,我们利用IC分布的独立性,在目标域数据上使用估计的F进行数据增强(图 3)。
  2. 我们通过援引广义U型统计学的理论,从理论上证明了扩增程序的合理性。该理论表明,在理想情况下,所提出的数据增强过程会产生一致的最小方差无偏风险估计量。 我们还提供了一个超额风险约束,以涵盖一个更现实的情况(第4节)。
  3. 我们通过实验证明了该算法的有效性(第6节)。我们使用的真实世界数据取自计量经济学领域,之前的研究中已经应用了结构方程模型。

  我们所考虑的生成模型的一个显著例子是因果模型的结构方程(第2节)。在这种情况下,我们的方法可以被看作是充分利用DA的结构性因果模型的第一次尝试(第5.2节)。

2 问题设置

  在本节中,我们将描述问题的设置和符号。综上所述,我们的问题设置是齐次(homogeneous)、多源(multi-source)和少样本监督(few-shot supervised) 域自适应回归。也就是说,所有数据分布分别定义在同一个数据空间上,有多个源域,目标分布中可用的标记数据数量有限(我们不假设未标记数据的可用性)。在本文中,我们交替使用术语分布

  Notation. 让我们用 R ( N ) \mathbb R(\mathbb N) R(N) 来分别表示实数 (自然数) 的集合。对于 N ∈ N N \in \mathbb N NN,我们定义了 [ N ] : = 1 , 2 , . . . , N [N] := {1, 2, ..., N} [N]:=1,2,...,N。在整篇论文中,我们固定 D ( ∈ N ) > 1 D(\in \mathbb N) > 1 D(N)>1,并且假设输入空间 X \mathcal X X R D − 1 \mathbb R^{D-1} RD1 的一个子集,标签空间 Y \mathcal Y Y R \mathbb R R的一个子集。因此,总体数据空间 Z : = X × Y \mathcal {Z := X×Y} Z:=X×Y R D \mathbb R^D RD的一个子集。我们通常用 Z = ( X , Y ) Z = (X, Y) Z=(X,Y) 表示一个标记的数据点。我们用 Q \mathcal Q Q表示 R D \mathbb R^D RD 上具有绝对连续边际的独立分布集合。对于分布 p p p,我们用 E p E_p Ep 表示它的诱导期望算子。补充材料中的表3提供了一个符号的摘要。

  Basic setup:Few-shot domain adapting regression. p T a r p_{Tar} pTar Z \mathcal Z Z 上的分布(目标分布),并让 G ⊂ g : R D → R \mathcal G \subset { g : \mathbb R^D \rightarrow \mathbb R} Gg:RDR 是一个假设类。让 l : G × R D → [ 0 , B l ] l : \mathcal G × \mathbb R^D \rightarrow [0, B_l] l:G×RD[0,Bl]作为损失函数,其中 B l > 0 B_l > 0 Bl>0是一个常数。我们的目标是找到一个对 p T a r p_{Tar} pTar 表现良好的预测器 g ∈ G g \in \mathcal G gG,即目标风险 R ( g ) : = E p T a r l ( g , Z ) R(g) := \mathbb E_{p_{Tar}}l(g, Z) R(g):=EpTarl(g,Z) 很小。我们表示 g ∗ ∈ a r g   m i n g ∈ G R ( g ) g^* \in arg\ min_{g \in \mathcal G}R(g) garg mingGR(g)。为了这个目标,我们得到一个独立且同分布(i.i.d.)的样本 D T a r : = { Z i } i = 1 n T a r ∼ i . i . d . p T a r \mathcal D_{Tar} := \{Z_i\}^{n_{Tar}}_{i=1} \mathop\sim\limits^{i.i.d.}p_{Tar} DTar:={Zi}i=1nTari.i.d.pTar。在 n T a r n_{Tar} nTar 很大的完全监督设置中,标准程序是通过经验风险最小化(ERM)来选择 g g g,即 g ^ ∈ a r g   m i n g ∈ G R ^ ( g ) \hat g \in arg\ min_{g \in \mathcal G}\hat R(g) g^arg mingGR^(g) , 其中 R ^ ( g ) : = 1 n T a r ∑ i = 1 n T a r l ( g , Z i ) \hat R(g) := \frac 1 {n_{Tar}} \sum_{i=1}^{n_{Tar}}l(g, Z_i) R^(g):=nTar1i=1nTarl(g,Zi)。然而,当 n T a r n_{Tar} nTar不是充分大时, R ^ ( g ) \hat R (g) R^(g) 可能无法准确估计 R ( g ) R (g) R(g), 导致 g ^ \hat g g^ 的泛化误差较高。为了弥补目标分布中数据的不足,让我们假设我们有来自 K K K 个不同的源分布 { p k } k = 1 K \{p_k\}^K_{k=1} {pk}k=1K Z \mathcal Z Z 上的数据,也就是说,我们有独立同分布的样本 D T a r : = { Z k , i S r c } i = 1 n k ∼ i . i . d . p k ( k ∈ [ K ] , n k ∈ N ) \mathcal D_{Tar} := \{Z_{k,i}^{Src}\}^{n_k}_{i=1} \mathop\sim\limits^{i.i.d.}p_k(k \in [K], n_k \in N) DTar:={Zk,iSrc}i=1nki.i.d.pk(k[K],nkN),其与 p T a r p_{Tar} pTar 的关系被简要描述。为简单起见,我们假设 n T a r , n k ≥ D n_{Tar}, n_k \geq D nTar,nkD

  Key assumption. 在这项工作中,关键转移假设是所有域都遵循具有相同混合函数的非线性 ICA 模型(图 2)。准确地说,我们假设存在一组 IC 分布 q T a r , q k ∈ Q ( k ∈ [ K ] ) q_{\mathrm{Tar}}, q_k \in \mathcal{Q}(k \in[K]) qTar,qkQ(k[K]) 和一个光滑的可逆函数 f : R D → R D f: \mathbb{R}^D \rightarrow \mathbb{R}^D f:RDRD(变换或混合)使得 Z k , i S r c ∼ p k Z_{k, i}^{\mathrm{Src}} \sim p_k Zk,iSrcpk 由第一次采样生成 S k , i S r c ∼ q k S_{k, i}^{S r c} \sim q_k Sk,iSrcqk 然后将其转换为
Z k , i S r c = f ( S k , i S r c ) (1) Z_{k, i}^{\mathrm{Src}}=f\left(S_{k, i}^{\mathrm{Src}}\right)\tag1 Zk,iSrc=f(Sk,iSrc)(1)
同样地 Z i = f ( S i ) , S i ∼ q T a r Z_i=f\left(S_i\right), S_i \sim q_{\mathrm{Tar}} Zi=f(Si),SiqTar 对于 p T a r p_{\mathrm{Tar}} pTar。上述假设允许我们正式关联 p k p_{\mathrm{k}} pk p T a r p_{\mathrm{Tar}} pTar。它还允许我们在满足非线性 ICA 理论所需的充分识别条件时估计 f f f。由于篇幅的限制,我们对本文使用的非线性ICA方法以及补充材料a中的已知理论条件进行了简要回顾。对于 f f f 的可识别性,这里假设有多个源域:它来自当前已知的非线性 ICA 的识别条件。请注意, q q q 的复杂变化是允许的,因此不变量 f f f 的假设可以适应表观分布 p p p 的复杂变化。我们将在 5.3 节通过一个简单的例子进一步讨论这个问题。

  Example: Structural equation models 用公式(1)表示的生成模型的一个突出例子是结构方程模型, 它被用来描述涉及随机变量的因果关系的数据生成机制 。更确切地说,公式(1)的生成模型对应于马尔科夫 SEM 的简化形式,即从 ( Z , S ) (Z,S) (ZS) 中确定 Z Z Z 的结构方程被解决的形式,以便 Z Z Z 被表达为 S S S 的函数。这样的转换总是可能的,因为一个马尔科夫式的SEM会诱导出一个非循环的因果图,因此结构方程可以通过消除变量来解决。这种对简化形式的SEMs的解释,如公式(1),已经在因果发现的方法中得到了利用,例如,在线性非高斯加权模型及其后继者中得到了利用。在SEMs的情况下,本文的关键假设转化为结构方程跨域的不变性,从而可以基于先验知识对假设进行直观的评估。例如,如果所有领域都具有相同的因果机制并且处于相同的干预状态 (包括无干预情况),则建模选择被认为是合理的。请注意,我们在提出的方法(第3节)中没有估计原始结构方程,而只要求估计简化形式,这与因果发现相比是一个比较容易的问题。

3 提出的方法:机制转移

在本节中,我们详细介绍了所提出的方法,机制传递 (算法1)。该方法首先从源域数据中估计出常见的生成机制f,然后用它来对目标域数据进行数据增强,以转移知识(图3)。
图3
图3 估算出共同机制 f f f 后,所提出的少样本域适应方法的示意图。利用估计的 f ^ \hat f f^,该方法在几个步骤中增加了小的目标域样本,以提高统计效率:(a) 该算法给出了标记的目标域数据。(b) 从标记的目标域数据中提取ICs。© 通过改组值,合成IC的可能值。从合成的IC中,生成伪目标数据。生成的数据用于拟合目标域的预测器。

主要步骤

  • 使用源域数据估计 f f f 第一步通过非线性ICA,即通过广义对比学习来估计公共变换 f f f
  • 使用 f ^ \hat f f^取并放大目标IC。 第二步使用估计的 f ^ \hat f f^ 值提取并扩大目标域ICs。
  • 从放大的ICs合成目标数据。 第三步通过增强数据的经验分布来估计目标风险 R R R

4 理论见解

  在本节中,我们陈述两个定理,以研究第3节中提出的方法的统计特性,并提供超越我们利用IC分布独立性的直觉的合理性。

4.1 最小方差属性: 理想化案例

  第一个定理提供了对所提出方法的统计优势的见解: 在理想情况下,该方法在所有可能的无偏风险估计量中达到最小方差。定理1 意味着所提出的风险估计器在方差方面比普通经验风险具有更高的统计效率。

4.2 超额风险约束: 更现实的案例

  在实际情况下,必须估计 f f f 。以下定理表征了由估计误差 f − f ^ f − \hat f ff^ 引起的统计损益。直觉是,增加的点数抑制了过拟合的可能性,因为假设必须拟合大多数放大的数据,但是估计量 f ^ \hat f f^ 必须是准确的,以便拟合放大的数据是有意义的。请注意,该定理与如何获得 f ^ \hat f f^ 是不可知的,因此只要可以估计 f ^ \hat f f^ ,它就适用于更一般的问题设置。

5 相关的工作和讨论

  在本节中,我们回顾了DA的一些现有 TA,以阐明本文的相对位置。我们还澄清了与因果关系相关迁移学习的文献之间的关系。

5.1 现有转移假设

  在此,我们回顾一些现有的工作和TA,主要包括参数假设、不变条件和边距、小差异或积分概率度量和可转移参数四个方面。有关总结请参见表1。
表1
表1: DA的TAs比较 (Parametric: 参数分布族或分布移位,Invariant dist: 不变分布成分,不变分布成分,如条件、边际或共线性。Disc. / IPM: 小差异或积分概率度量,Param-transfer: 可转移参数的存在,Mechanism: 不变机制)。AD:适应明显不同的分布。NP:非参数灵活性。BCI:Brain computer interface。

5.2 迁移学习的因果关系

  我们的方法可以看作是充分利用DA的结构因果模型的首次尝试。与以前的工作相比,我们的方法进一步假设和利用了 结构因果模型(SCM) 的不变性。尽管 图形因果模型 (GCMs) 上的此类假设具有对错误规范更稳健的优点,但它们往往需要参数假设来获得理论依据。另一方面,我们的假设在不依赖参数假设的情况下享有理论保证。

  就该方法而言,Magliacane等人 (2018) 采用变量选择方法来选择一组预测变量,该预测变量具有跨不同干预状态的不变条件分布。另一方面,我们的方法估计了SEMs (简化形式),并应用了数据增强过程来传输知识。据我们所知,本文是第一个提出一种直接使用估计的SEMs进行域适应的方法,并且对估计的SEMs的细粒度使用使我们能够得出超额风险界限。就合理的应用而言,它们的问题设置可能更适合具有介入实验 (例如基因组学) 的应用领域,而我们的问题设置可能更适合观察性研究更常见的领域,例如健康记录分析或经济学。

5.3 假设的合理性

  • 检查假设的有效性。 与DA中通常的情况一样,数据的稀缺性会禁用 TA 的数据驱动测试,因此我们需要领域知识来判断有效性。对于我们的TA,可以使用直观的解释作为因果模型的不变性 (第2节)。
  • 不变的因果机制。 通常假定 SEM 保持不变,除非明确干预。但是,不变性假设假定干预状态不会在各个领域之间变化 (允许无干预的情况),这对于可能存在不同干预的某些应用可能是限制的,例如,不同的治疗政策在不同的医院中实施。尽管如此,如果与寻找合适的数据或情况的努力相结合,目前的工作已经可以具有实际意义。
  • 完全观察到的变量。 作为充分利用SCMs进行DA的方法中的第一个算法,我们还考虑了所有变量都是可观察到的情况。尽管在因果推理问题中经常假定存在一些未观察到的混杂变量,但我们将进一步扩展到这种情况,以备将来使用。
  • 所需的源域数量。 所提出的方法的潜在缺点是,它需要多个源域才能满足非线性ICA的识别条件,即本文中的GCL (补充材料A)。该要求仅来自ICA方法的识别条件,因此有可能因非线性ICA方法的未来发展而变得不那么严格。此外,如果可以接受其他识别条件,则也可以以直接的方式在所提出的方法中使用单样本ICA方法 (例如线性ICA),并且无论选择哪种方法,我们的理论分析仍然成立。
  • 模型的灵活性。 f f f 变时, X X X Y Y Y 之间的关系可以急剧变化。

6 实验

  在本节中,我们提供概念验证实验,以证明所提出方法的有效性。请注意,实验的主要目的是确认所提出的方法是否可以在实际数据中正确执行DA,而不是确定哪种DA方法和TA最适合特定数据集。

6.1 所提出方法的实施细节

  • f f f 的估计
  • 增强目标数据
  • 预测假设类 G \mathcal G G
  • 超参数选择
  • 计算环境

6.2 使用真实世界数据的实验

  • 数据集
  • 比较方法
  • 评估程序
  • 结论

7 结论

  在本文中,我们基于共享生成机制的假设,提出了一种新颖的用于回归问题的少样本监督DA方法。通过理论和实验分析,我们证明了该方法的有效性。通过考虑域分布背后的潜在公共结构,即使在原始使用源域数据可能遭受负转移的情况下,所提出的方法也成功地诱导了正转移。我们未来的工作包括与更多的数据集和方法进行实验比较,以及对基础机制不完全相同但相似的情况的扩展。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值