关注公众号,发现CV技术之美
本篇分享论文『Sparse Fusion Mixture-of-Experts are Domain Generalizable Learners』,不同的图像patch由不同的专家模型来处理!南洋理工&Mila稀疏融合混合专家模型SF-MoE,具有超强泛化能力!代码已开源!
详细信息如下:
论文地址:https://arxiv.org/abs/2206.04046
代码地址:https://github.com/Luodian/SF-MoE-DG
01
摘要
领域泛化(DG)旨在学习分布转移下的可泛化模型,以避免冗余的过度拟合海量训练数据。之前关于复杂损失设计和梯度约束的工作尚未在大规模基准上取得实验上的成功。
在这项工作中,作者通过利用分布式处理跨领域预测特征的多个方面,揭示了混合专家(MoE)模型在DG上的可泛化性。为此,作者提出了稀疏融合混合专家模型(SF-MoE),该模型将稀疏性和融合机制结合到MoE框架中,以保持模型的稀疏性和预测性。SF-MoE有两个专用模块:稀疏块和融合块,分别对对象的不同学习信号进行分离和聚合。
大量实验表明,SF-MoE是大规模基准测试领域的可泛化学习者。它在5个大型DG数据集(如DomainNet)中的表现优于最先进的同类模型2%以上,计算成本相同甚至更低。作者进一步从分布式表示的角度(如视觉属性)揭示了SF-MoE的内部机制。
02
Motivation
泛化到分布外(OOD)数据对人类来说是一种天生的能力,但对机器学习模型来说是一种挑战。为了解决这个问题,领域泛化(DG)研究鼓励模型在面对各种分布变化时具有弹性,如照明、纹理、背景和地理/人口因素。
为了实现模型的可泛化性,学习DG的领域不变表示已被广泛探索,因为它们具有理论基础。然而,它们的性能在大规模DG基准上受到了挑战。一方面,强有力的证据表明,在领域适应( domain adaptation)问题中,仅学习领域不变表示是不够的。如果边缘标签分布在不同的训练域中不同,域不变方法可能会损害目标域的泛化性能。另一方面,最近的工作也考虑了对领域特定信息的利用,提出了多个网络分别捕获和对齐领域特定信息,或同时利用领域不变网络和领域特定网络。
同时,另一系列研究发现,当主干网络和数据集变得更大时,简单的baseline可以匹配甚至优于现有的具有复杂设计的DG方法。例如,之前有工作训练了一个 linear probing MLP,将样本动态路由到多个具有不同架构的预训练网络。这些结果启发研究者关注模型架构或训练范式的修改,以便在大规模DG基准上取得更好的绩效。
什么结