寻找领域不变量:从生成模型到因果表征

12ea16728d978e7de95376869c5ae9dc.gif

©作者 | 张鸿宇

单位 | 哈尔滨工业大学(深圳)

研究方向 | 联邦学习、图机器学习

cd6f62d79b175783e6dfdba5d9cdde20.png

领域不变的表征

在迁移学习/领域自适应中,我们常常需要寻找领域不变的表征(Domain-invariant Representation),这种表示可被认为是学习到各领域之间的共性,并基于此共性进行迁移。而获取这个表征的过程就与深度学习中的“表征学习”联系紧密。生成模型,自监督学习/对比学习和最近流行的因果表征学习都可以视为获取良好的领域不变表征的工具。

3f9bbc246849b31d6fc99bd03acf4347.png


生成模型的视角

生成模型的视角是在模型中引入隐变量(Latent Variable),而学到的隐变量为数据提供了一个隐含表示(Latent Representation)。如下图所示,生成模型描述了观测到的数据 由隐变量 的一个生成过程:

c6bbb4d5947a749c4b288d2d38435cf8.png

▲ 数据x的生成过程

也即

702c7f88b11d275e780e8c4d590e40b5.png

求和(或积分)项

7056b56804738ff9289f0e073d080185.png

常常难以计算,而 的后验分布

6c45517b8c192a6e2adad00ca726aade.png

也难以推断,导致 EM 算法不能使用。

VAE 的思想是既然后验 难以进行推断,那我们可以采用其变分近似后验分布 (对应重参数化后的编码器),而数据的生成过程 则视为解码器。如下图所示。

1478f224d78629b49337db9b287e1fda.png

▲ VAE架构示意图

变分自编码器的优化目标为最大化与数据 x 相关联的变分下界:

b55b81af4acb75b2e491fc5ed47bf8d4.png

上面的第一项使近似后验分布 和模型先验 (一般设为高斯)尽可能接近(这样的目的是使解码器的输入尽可能服从高斯分布,从而使解码器对随机输入也有很好的输出);第二项即为解码器的重构对数似然。

接下来我们说一下如何从近似后验分布 中采样获得 ,因为这 不是由一个函数产生,而是由一个随机采样过程产生(它的输出会随我们每次查询而发生变化),故直接用一个神经网络表示 是不行的,这里我们需要用到一个重参数化技巧(reparametrization trick):

9bd696a5365e6608e67b92ed2eaa03d3.png

这样我们即能保证 来自随机采样的要求,也能通过反向传播进行训练了。

这里提一下条件变分自编码器,它在变分自编码器的基础上增加了条件信息 (比如数据 的标签信息),如下图所示

fbc45ed3af1902d76734af1b5eb5c972.png

▲ CVAE架构示意图

变分自编码器所要最大化的函数可以表示为:

fc17409e10ed686b8367ef2b30f3523a.png

关于自编码器和变分自编码在 MNIST 数据集上的代码实现可以参照 GitHub 项目。

训练完成后,VAE的隐向量 和CVAE的隐向量 的对比如下:

d650e63862dca400547d580c04839c81.png

▲ VAE和CVAE隐向量对比示意图

可以看到 CVAE 的隐空间相比 VAE 的隐空间并没有编码标签信息,而是去编码其它的关于数据 的分布信息,可视为一种解耦表征学习(disentangled representation learning)技术。

就我们的迁移学习/领域自适应任务而言,训练生成模型获得了隐向量之后就已经完成目标,之后可以将隐向量拿到其它领域的任务中去用了。不过有时训练生成模型的最终目的还是为了生成原始数据。接下来我们来对比两者的图像生成效果。移除编码器部分,随机采样 ,VAE 的生成  和 CVAE 的生成 如下图所示,其中 CVAE 会将图像的标签信息 做为解码器的输入。

76ee24961c081bab91887888b24807f3.png

▲ VAE和CVAE生成图像对比示意图

可以看到其中所编码的标签信息发挥的重要作用。

这里补充一下,提取领域不变的表示也可以通过简单的特征提取器 + GAN 对抗训练机制来得到。如在论文中,设置了一个生成器根据随机噪声和标签编码来生成“伪”特征,并训练判别器来区分特征提取器得到的特征和“伪”特征。此外,作者还采用了随机投影层来使得判别器更难区分这两种特征,使得对抗网络更稳定。其架构如下图所示:

3efcec2c27a51d0cd178a5cf7608d6c3.png

▲ 用GAN获取领域不变特征

c845259b58245b348fba7d1354ee2cd3.png

自监督学习/对比学习的视角

在自监督预训练中,其实也可以看做是在学习 的结构,我们要求该过程能够学习出一些对建模 (对应下游的分类任务)同样有用的特征(潜在因素)。因为如果 与 的成因之一非常相关,那么 和 也会紧密关联,故试图找到变化潜在因素的自监督表示学习会非常有用。自然语言处理中的经典模型 BERT 便是基于自监督学习的思想。

而对比学习也可以视为自监督学习的一种,它是通过构造锚点样本、正样本和负样本之间的关系来学习表征。对于任意锚点样本 ,我们用 和 分别表示其正样本和负样本,然后 表示要训练的特征提取器。此时,学习目标为限制锚点样本与负样本之间的距离远大于其与正样本之间的距离(此处的距离为在表征空间的距离),即:

ac0e9e945c6a1f5fc82a14d56a9c23d9.png

其中, 为一可定制的距离度量函数,常用的是如下的余弦相似度: 

0ab3ed069c10a6f2c05c8fee9aab416a.png

当向量 、 归一化后,余弦相似度等价于向量内积。此外,互信息也可以作为相似度的度量。在经典的 SimCLR 架构按照如下图所示的图像增强(比如旋转裁剪等)方式产生正样本:

5da21fbf01851863c85eaed8b17674bb.png

▲ SimCLR架构图

如上图所示,它对每张输入的图片进行两次随机数据增强(如旋转剪裁等)来得到 和 。对于 而言, 为其配对的正样本,而其它 个样本则视为负样本。

对比学习损失函数 InfoNCE 如下所示:

62dc44f818c8b0bc4056a2bd8d0221c8.png

这里 表示第 个负样本。

对比学习一般也是用来获取 embeddings,然后用于下游的有监督任务中,如下图所示:

d80c38f09dd172c5f698a6d0efc1c9dc.png

▲ 整体的对比学习上下游任务示意图

e526967f0deaf1c3e2616a74996a3c57.png


因果推断的视角

前面我们提到在对比学习中可以运用数据增强来捕捉域不变特征,然而这种数据增强的框架也可以从因果表征学习的视角来看。因果推断中的因果不变量同样也可以对应到领域不变的表征。

如今年 CVPR 22 的一篇论文所述,原始数据 由因果因子 (如图像本身的语义)和非因果因子 (如图像的风格)混合决定,且只有 能够影响原始数据的类别标签。注意,我们不能直接将原始数据量化为 ,因为因果因子/非因果因子一般不能观测到并且不能被形式化。

be6d493fc0f4fd407659cee5eaa5bed2.png

▲ 结构化因果模型(SCM)建模

这里的任务为将因果因子 从原始数据中提取出来,而这可以在因果干预 的帮助下完成,具体的措施类似于我们前面所说的图像增强,如下图所示:

e1e8ef8cf144d7662932308663871d32.png

▲ 对应do算子的数据增强

如图,论文对非因果因子采用因果介入来生成增强后的图像,然后将原始和增强图像的表征送到因子分解模块,该模块使用分解损失函数来迫使图像表征和非因果因子分离。最后,通过对抗掩码模块让生成器和掩码器之间形成对抗,使得表征更适用于之后的分类任务。

outside_default.png

参考文献

outside_default.png

[1] 王晋东,陈益强. 迁移学习导论(第2版)[M]. 电子工业出版社, 2022.

[2] Goodfellow I, Bengio Y, Courville A. Deep learning[M]. MIT press, 2016.

[3] Kingma D P, Welling M. Auto-encoding variational bayes[C]. ICLR, 2014.

[4] Sohn K, Lee H, Yan X. Learning structured output representation using deep conditional generative models[J]. Advances in neural information processing systems, 2015, 28.

[5] github.com/timbmg/VAE-C

[6] Zhang L, Lei X, Shi Y, et al. Federated learning with domain generalization[J]. arXiv preprint arXiv:2111.10487, 2021.

[7] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. NAACL, 2018.

[8] Chen T, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations[C]//International conference on machine learning. PMLR, 2020: 1597-1607.

[9] Jaiswal A, Babu A R, Zadeh M Z, et al. A survey on contrastive self-supervised learning[J]. Technologies, 2020, 9(1): 2.

[10] Lv F, Liang J, Li S, et al. Causality Inspired Representation Learning for Domain Generalization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 8046-8056.

更多阅读

761b350bf643726d3e55966ac1492dc1.png

1c78c9385a815e365a8f8425c7f263ee.png

fe684b0b058bfb03e754425baf1e20a3.png

f5b5a6dbb062baa134ab842f04a67f23.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

8e556b5fd2c0f99bf39948492e8dde6c.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

93b7aee6f1547b5a9a5d0e37b8a98094.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值