ICML 2023 | 子群体偏移问题深入研究

cf53823d0c0abbe37c7ed446c0f839e2.gif

©作者 | 杨宇喆

学校 | 麻省理工学院

研究方向 | Reliable ML, AI for Health

42d564cdfb631fa7f27aae353e4f1ac1.png

论文题目:

Change is Hard: A Closer Look at Subpopulation Shift

论文链接:

https://arxiv.org/abs/2302.12254

项目主页:

https://subpopbench.csail.mit.edu/

机器学习模型通常在训练数据中对于少数群体表现较差。然而,我们对导致子群体偏移(subpopulation shift)的机制变化以及算法在如此多样化的转变中的泛化情况了解甚少。在这项工作中,我们对子群体偏移进行了细致的分析。我们首先提出了一个统一的框架,用于解释子群体中常见的偏移情况。然后,我们在视觉、语言和医疗领域的 12 个真实世界数据集上建立了一个全面的基准,评估了 20 种最先进的算法。

通过训练超过 10,000 个模型并获得结果,我们揭示了这一领域未来发展的有趣观察结果。目前代码,数据,和模型已经在 GitHub 上开源,链接如下:

https://github.com/YyzHarry/SubpopBench

4e530323d06a0505906c2e94ba3c85e8.png


研究背景与动机

机器学习模型在训练数据存在不均衡的情况下,通常会在少数群体(subgroup)上表现不佳。例如,在识别牛和骆驼的任务 [1](cow-camel problem)中,我们知道牛通常出现在有绿草的地区,而骆驼则经常出现在有黄沙背景的地方。然而,这种相关性是虚假的,因为牛或骆驼的存在与背景颜色无关。因此,经过训练的模型在上述图像上表现良好,但无法推广到在训练数据中罕见且具有不同背景颜色的动物,例如沙滩上的牛或草地上的骆驼。

c8f06666be615365f076d11a3fa67017.png

▲ 左:在识别牛和骆驼的任务中,牛通常出现在绿草地区,骆驼经常出现在黄沙区域,这导致模型在上述图像上表现良好,但无法推广到在训练数据中罕见且具有不同背景颜色的图片。右:医学诊断任务上,模型在年龄或种族上代表性不足的群体表现通常较差。

此外,当涉及到医学诊断时,研究发现机器学习模型在年龄种族上代表性不足的群体上表现通常较差,引发了重要的公平性问题。所有这些问题通常被泛化的称为子群体偏移问题,但我们对导致子群体偏移的机制变化以及算法在如此多样化的偏移中的泛化情况了解甚少。在这项工作中,我们对子群体偏移进行了细致的分析。


a060793eab30c95676c5a83a4e254626.png


子群体偏移的统一框架

为了对 subpopulation shift 进行建模,我们提出了一个统一的框架。在经典的分类问题的设置中,我们有来自多个类别的训练数据,并且每个类别中的样本数量可能不同。然而,在涉及到子群体存在偏移的情况下,除了类别之外,还存在属性(attribute)上的偏移,例如牛和骆驼分类问题中的背景颜色。在这种情况下,我们可以根据属性标签的组合定义离散的子群体,而在同一类别中,不同属性的样本数量也可能不同。

a19a2353b1ae08fffaed4ade50f7fb76.png

▲ 在子群体存在偏移的情况下,除了类别之外,还存在属性(attribute)上的偏移

而为了测试模型的性能,我们需要在所有子群体上进行测试,以确保在所有子群体中最差的性能足够好,或者确保在所有群体中性能相同且良好。其中最为广泛应用的指标是 worst group accuracy(WGA)[2],顾名思义,即是在 group=(label x attribute)里的最差准确率要足够好。

为了提供一个通用的数学形式,受到最近泛化的长尾分类问题的启发 [3],我们使用贝叶斯定理重写分类模型,并将其分解为三个项。这种建模方法解释了在子群体偏移下属性和类别是如何影响结果的。

b567a6ab28284443adca4d6539c722b5.png

和 [3] 类似,我们将每个输入 视为完全由一组基础核心特征 和一系列属性 描述或生成。其中, 表示与标签相关且支持鲁棒分类的不随属性值改变的特征,而属性 可能具有不一致的分布且与标签无关。

因此,我们可以将这种建模方法集成到方程中,并将其分解为三个项。其中,第一项表示 和 之间的点互信息,这是与基础类别标签相关的鲁棒指标,而第二项和第三项则分别对应于属性分布和标签分布中可能出现的潜在偏差。这种建模方法解释了在子群体偏移下属性和类别是如何影响结果。

因此,鉴于训练和测试分布之间的不变 ,我们可以忽略第一个项的变化,专注于属性(attribute)类别(class)在子群体转变下如何影响结果。基于这个表述,我们正式定义和描述了四种基本类型的子群体偏移。

7708a6a1944545cf0e2cab2f4d819b5d.png

▲ 四种基本类型的子群体偏移(subpopulation shift)

首先,当某个属性 在训练数据中与标签 存在错误的相关性,但在测试数据中不存在时,这意味着 Spurious correlations,即错误相关性。此外,当某些属性的采样概率远小于其他属性时,会导致属性不平衡,Attribute imbalance。类别标签也可能呈现不平衡的分布,导致对少数类别的偏好较低,这将导致类别不平衡,Class imbalance

最后,某些属性在训练中可能完全缺失,但在测试中对于某些类别是存在的,这促使我们需要考虑属性泛化,Attribute generalization。这四种情况构成了最基本的子群体偏移的组成部分,它们是解释实际数据中复杂子群体偏移的重要因素。每种偏移所产生的原因,以及其对分类模型的影响,由下表归纳所示。

c0e6702c7952dbdefd48896a0e7c5da5.png

需要注意的是,这四种偏移仅仅是最基础的字群体偏移类型;而在实际问题中,数据集通常同时包含多种类型的偏移,而不仅仅是一种。我们在文章中提出了一些能够量化数据集中每种偏移程度的指标。

8b55e45095eb935e96c1874f4bdfb14c.png


SubpopBench: 子群体偏移的 Benchmark

那么现在,在建立了子群体偏移的建模和细化分类之后,我们提出了 SubpopBench,一个包含 12 个真实世界数据集上评估最先进的 20 多种算法的综合基准 benchmark。具体而言,这些数据集来自各种模态和任务,包括视觉 [4][5][6][7][8][9]、语言 [10][11] 和医疗 [12][13] 的应用,而数据模态涵盖自然图像、文本、临床文本和胸部 X 射线等多种形式。不同数据集还展示了不同的子群体偏移的成分。 

9101310e3b2be248f5d1d00a34285303.png

1f8ea4984b4be96a1eeebef59b95a588.png

这里具体细节就不多赘述了,详细内容还请参考我们的文章。那么通过建立这一基准并使用 20 多种最先进的算法训练了超过 10,000 个模型,我们揭示了对未来研究有启示的一些观察结果。 

de413fc708a61b8a125d8982be474b56.png


对于子群体偏移的细致分析

4.1 SOTA算法只在某些特定类型的偏移上改善了子群体的鲁棒性

6397660513acf6af5d42a73637503e99.png

首先,我们观察到目前最先进的算法只在某些类型的数据偏移上改善了子群体的鲁棒性,而在其他类型的数据偏移上并未改善。我们在这里绘制了各种最先进算法相对于 ERM 的最差子群体准确率的提升情况。对于 spurious correlation 和 class imbalance 而言,现有算法能够提供一致的相对于 ERM 的最差子群体增益,表明在解决这两种特定的数据偏移问题上已经取得了进展。


然而有趣的是,在 attribute imbalance 问题上,算法对于不同数据集的改善都很小。此外,在属性泛化 attribute generalization 方面,其性能甚至变得更差。这些发现强调了目前的进展仅针对特定类型的数据偏移,对于更具挑战性的属性泛化等偏移类型尚未取得进展

4.2 Representation & classifier 在子群体偏移中的作用

05c3634cd38ab6ae6b49d831a96853e0.png

此外,我们还探索了网络学习到的表示,即 representation,和分类器,即 classifier,在子群体偏移中的作用。具体来说,我们将整个网络分为两个部分:特征提取器 f 和分类器 g。其中,f 从输入中提取潜在特征,g 输出最终的预测结果。那么,表示和分类器如何影响子群体的性能?

首先,在基于 ERM 模型的基础上,当仅优化分类器而保持表示不变时,其可以显著提高 spurious correlation 和 class imbalance 情况下的性能,这表明 ERM 学习到的表示对于这两种偏移已经足够好了。

有趣的是,改进表示学习而不是分类器,则可以显著提高 attribute imbalance 问题的性能,这表明我们可能需要更强大的特征来应对某些特定的偏移。最后,没有任何学习方式能够在 attribute generalization 下带来性能提升。这凸显了在面对不同类型的偏移时,我们需要考虑模型不同组件设计的重要性

4.3 模型选择和属性可用性对子群体偏移评估的影响

0ef6362055974b3b7a1f9b9536eda486.png

此外,我们观察到模型选择属性可用性对子群体偏移评估有着相当大的影响。具体来说,当逐渐删除训练以及验证数据中的属性标注时,所有算法都经历了显著的性能下降,特别是当完全不知道训练和验证数据中的属性时。这表明,在子群体偏移中,对是否提前知道属性仍然是取得良好性能的条件,而未来的算法应该考虑更加真实的模型选择和属性可用性场景,例如完全不知道训练和验证数据中的属性时如何进行泛化

4.4. 评估指标之间的非常根本的 tradeoff 关系

6d9798840b5b519766597b2739b78586.png

最后,我们揭示了评估指标之间的非常根本的 tradeoff 关系。最差子群体准确率,Worst-group accuracy,WGA,被认为是子群体评估的黄金标准。然而,提高 WGA 是否总能改善其他有意义的指标呢?首先,我们展示了提高 WGA 可以导致某些指标的性能改善,比如这里展示的 adjusted accuracy,即平衡的准确率。

然而,如果我们进一步考虑最坏情况下的精确度,worst case precision,令人惊讶的是,它与 WGA 呈现出强烈的负线性相关性。这揭示了仅使用 WGA 来评估模型在子群体转变中的性能存在了根本的限制:一个在 WGA 上表现良好的模型可能具有很低的最坏情况下的精确度,而低精确度在关键应用领域如医学诊断中,是尤其令人担忧的。我们的观察强调了在子群体偏移中需要更加现实的评估指标。在论文中,我们还展示了许多其他与 WGA 呈负相关的指标。


55d00d86f2ed3ead002cbb5760b8e64b.png


结语

最后总结一下本文,针对子群体偏移 - subpopulation shift - 这个实际的问题,我们提出了一个全面的数学建模框架,一个涵盖了多种模态的 benchmark,并进行了细致的分析,得到了许多有趣的结果。这篇博客也仅仅是大体介绍了我们的研究,而具体细节还请大家直接读我们的文章。

当然,我们的工作还是存在其局限性,也留了一些坑。希望本文能抛砖引玉,也非常欢迎大家 follow 我们的工作!如果大家有任何想要交流的技术问题,欢迎留言多多交流。最后再次附上我们论文的相关链接:

项目主页:

https://subpopbench.csail.mit.edu/

论文链接:

https://arxiv.org/pdf/2302.12254.pdf

代码链接:

https://github.com/YyzHarry/SubpopBench

Talk链接:

https://www.youtube.com/watch?v=WiSrCWAAUNI


outside_default.png

参考文献

outside_default.png

[1] Understanding the Failure Modes of Out-of-Distribution Generalization.

[2] Distributionally Robust Neural Networks for Group Shifts: On the Importance of Regularization for Worst-Case Generalization.

[3] Invariant feature learning for generalized long-tailed classification.

[4] The Caltech-UCSD Birds-200-2011 Dataset

[5] Large-scale CelebFaces Attributes (CelebA) Dataset

[6] MetaShift: A Dataset of Datasets for Evaluating Contextual Distribution Shifts and Training Conflicts

[7] NICO++: Towards Better Benchmarking for Domain Generalization

[8] Noise or Signal: The Role of Image Backgrounds in Object Recognition 

[9] BREEDS: Benchmarks for Subpopulation Shift

[10] Nuanced Metrics for Measuring Unintended Bias with Real Data for Text Classification

[11] A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference

[12] CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison

[13] MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports

更多阅读

540b086db255fff279cc048e8f32b769.png

887b18cb91b7f147eec28fd6945581a2.png

c5566e753404552468557312775fc861.png

553df5ed0349f6c5d02b6db097c11d3e.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

6ef2d986694a29a3befecd77e14c3aef.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

5a1d32a194114eb403da1a8034082e7b.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值