NeurIPS 2023 | FD-Align: 基于特征判别对齐的预训练模型小样本微调

PaperWeekly

于 2023-11-02 12:35:16 发布

阅读量177

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247639479&idx=3&sn=c52012723511b30eee99aea7f39105f4&chksm=96e47e37a193f721c9966c42948248e154a5be0c65c3f5cf0ab4340c87aea3d491abe6606c45&scene=126&sessionid=0

版权

©作者 | sanker

本文简单介绍一下我们被 NeurIPS 2023 录用的一个小样本预训练模型微调的工作。

论文标题：

FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained Models in Few-Shot Learning

论文地址：

https://arxiv.org/abs/2310.15105

代码地址：

https://github.com/skingorz/FD-Align

背景

CLIP 在各类视觉任务中表现得极其出色。将其应用到下游任务时，往往需要在下游数据上进行微调。但是在数据量不足的情况下，直接对 CLIP 进行微调很容易出现过拟合。并且会影响 OOD 数据上的泛化性。因此，先前的方法大多数尝试仅微调分类头或者引入额外的结构，但是这并没有充分挖掘 CLIP 的视觉编码器的潜力。所以我们探索如何尽可能的使用少量样本微调 CLIP 时不破坏其 OOD 性能。

动机

我们通过模型对虚假关联性的鲁棒性来解释全微调的 CLIP 的 OOD 性能变差的原因。虚假关联性的鲁棒性指的是模型是否具有区分出样本中和类别相关信息（因果信息）以及（背景、风格等）类别无关信息（虚假信息）的能力。先前的工作发现，CLIP 对虚假关联性有很好的鲁棒性，因此有很好的 OOD 性能 [1]。然而，全微调的 CLIP 的 OOD 性能会下降 [2]。

对 CLIP 和全微调后的 CLIP 的 attention map 可视化后发现：全微调的 CLIP 更关注于物体的局部特征，这种对局部信息的注意力使得模型对虚假关联性的鲁棒性变差 [3]。也就是说，对 CLIP 进行全微调时，虽然模型更好得学习到了微调样本的因果特征，但是模型对虚假特征的识别能力也变差，导致模型学习到的因果特征不能很好的泛化到未见过样本。从而出现过拟合，影响 OOD 数据上的泛化性。因此，本文提出了一种不影响模型对虚假特征识别能力的微调方法来保证微调后的模型对虚假关联性的鲁棒性。

方法

我们希望在小样本数据集上对 CLIP 的视觉编码器进行微调得到。本方法分为模型微调和虚假特征约束两部分。

3.1 模型微调

在微调过程中，CLIP 的文本编码器保持不变。我们将图像和对应的类别和个提示模板 () 作为输入。对于任意的类别，其对应的提示为。对每个类别，我们使用文本编码器提取所有的提示特征来用作计算类别的原型。

我们使用余弦相似度计算图像和类别原型的相似度，并依次计算概率密度。随后使用交叉熵损失作为微调时的分类损失。

其中是类别标签的集合。

3.2 虚假特征约束

在微调时保证虚假特征不变最直接的方式是将因果特征和虚假特征解耦出来，并保证虚假特征不变。然而，在图像中对特征解耦是一个极其困难的任务。相比之下，将虚假特征和因果特征从文本中解耦出来极其简单。例如：对于提示 “a photo of a dog”，dog 是因果特征。“a photo of a” 是虚假特征。借助于 CLIP 极强的视觉和文本对齐能力。我们可以将文本的虚假特征作为图像虚假信息的原型。

我们可以获取微调后的模型提取得到的图像特征在虚假信息上的概率分布：

同样，我们也可以获取到 CLIP 提取到的图像特征在虚假信息上的概率分布：

尽管无法直接约束微调后的模型和 CLIP 提取的图像特征中的虚假特征一致。但是可以通过约束二者在虚假信息上的概率分布一致来间接的保证提取到的虚假特征一致。

最终，我们约束分类损失和虚假一致损失来确保微调时的模型 OOD 泛化性。

3.3 虚假原型修正

目前的提示模板大多是人工设计或者语言模型生成，难免会出现不合理或者冗余的情况，从而导致虚假信息原型不准确。为此，我们首先使用异常值检测算法来删除不合理的提示特征

随后，我们使用 k-Means 来处理其中的冗余特征。

实验结果

4.1 OOD性能

如下表所示，我们在 ImageNet 上对 CLIP 进行 16 shot 微调，并在 ImageNet 两个变种数据集上进行性能测试。相对于全微调，我们的 OOD 性能有全面的提升。另外，我们直接将微调得到的视觉编码器替换到 Tip 和 APE 中，可以看出，我们微调后得到的模型能够无需重新微调直接应用到现有的方法中提升 OOD 性能。

同样，我们也按照 N-way K-shot 的小样本学习形式来对 CLIP 在 miniImageNet 上微调，并且在各种不同的下游数据集上测试了性能。下图是微调后的模型在不同数据集上的性能变化。我们微调后的模型在大部分数据集上都能带来显著的 OOD 性能提升。

4.2 ID性能

我们同样也在 11 个数据集上测试了我们方法的 ID 性能。我们的方法有着显著的性能提升，并且随着 shot 数增加提升更明显。

同样，我们将微调后的视觉编码器直接应用到现有的方法，下表是在 ImageNet 上的性能。可以看出，我们微调后的模型同样也能直接提升现有方法的 ID 性能。

4.3 虚假原型修正的必要性

如下表所示，我们分别比较了使用全部提示特征作为原型，Tip 手动筛选后的提示特征作为原型，以及使用虚假原型修正（SPC）后原型的 ID 性能。如图所示，使用 SPC 修正后的原型相对使用全部提示能达到更高的性能。值得关注的是，使用 Tip 手动筛选后的提示特征作为原型的性能大幅下降。具体原因我们分析是其中保留的模板 “itap of a {class}” 在 SPC 中被作为异常值删除。所以 SPC 自动修正虚假特征原型能够避免人工筛选的不合理性。

参考文献

[1] Self-supervision on images and text reduces reliance on visual shortcut features.
[2] Fine-tuning can distort pretrained features and underperform out-of-distribution.
[3] Are vision transformers robust to spurious correlations?

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NeurIPS 2023 | FD-Align: 基于特征判别对齐的预训练模型小样本微调

©作者 |sanker本文简单介绍一下我们被 NeurIPS 2023 录用的一个小样本预训练模型微调的工作。论文标题：FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained Models in Few-Shot Learning论文地址：https://arxiv.org/abs/2310.15105代码地址...
复制链接

扫一扫