FREE:Feature Refinement for Generalized Zero-Shot Learning 中文版

摘要:

广义零样本学习(GZSL)已经取得了显著的进展,许多工作致力于克服视觉-语义领域差距和已知-未知偏差的问题。然而,大多数现有方法直接使用仅在ImageNet上训练的特征提取模型,忽略了ImageNet和GZSL基准之间的跨数据集偏差。这种偏差不可避免地导致GZSL任务的视觉特征质量较差,可能限制对已知和未知类别的识别性能。在本文中,我们提出了一种简单而有效的GZSL方法,称为广义零样本学习的特征细化(FREE),以解决上述问题。FREE采用了一个特征细化(FR)模块,将语义→视觉映射纳入统一的生成模型,以细化已知和未知类别样本的视觉特征。此外,我们提出了一种自适应边界中心损失(SAMC-loss),与语义循环一致性损失合作,引导FR学习与类别和语义相关的表示,并在FR中连接特征以提取完全细化的特征。在五个基准数据集上进行的大量实验证明了FREE相对于其基线和当前最先进方法的显著性能提升。我们的代码可在https://github.com/shiming-chen/FREE找到。

1.介绍

人工智能的一个关键挑战是从已见数据到未见场景的泛化机器学习模型。零样本学习(Zero-shot learning, ZSL)是一个典型的研究课题,旨在通过构建语义和视觉领域之间的映射关系,对未见类别的图像进行分类。通常基于这样一个假设,即已见和未见类别都可以通过一组语义向量(例如句子嵌入[45]和属性向量[26])在同一语义空间中描述。根据它们的分类范围,ZSL 方法可以分为传统 ZSL(CZSL)和广义 ZSL(GZSL)[58]。CZSL 旨在预测未见类别,而 GZSL 可以预测已见和未见类别。近年来,由于更为现实和具有挑战性,GZSL 吸引了更多关注。因此,本文也关注于 GZSL 设置。

GZSL 已经取得了显著的进展,许多工作都集中在解决视觉-语义领域差距[26,1,2,52,51,61]和已知-未知偏差[57,37,66,64,49,38,36,19]等问题上。通常会应用语义嵌入[33,8,31,66,34]或生成方法(例如变分自编码器(VAEs)[3,47]、生成对抗网络(GANs)[57,31,60,65,21,51]和生成流[49])来缓解这些挑战。

我们的一个重要观察是,尽管 GZSL 中仍存在不令人满意的性能,但这与跨数据集偏差[50]密切相关。GZSL 模型通常使用在 ImageNet[58]上预训练的卷积神经网络(CNN)骨干(例如 ResNet-101[16])从粗细粒度基准(例如 AWA1[26]和 CUB[53])中提取视觉特征。然而,数据集之间的交叉偏差,即数据收集过程可能被人为或系统因素所偏倚,可能导致两个数据集之间的分布不匹配,例如,CUB 数据集中有牛鹱鸟而 ImageNet 中没有。因此,直接从 ImageNet 转移知识到 GZSL 的新数据集而不进行进一步的序列学习是不明智的,因为跨数据集偏差会限制知识转移,并导致从 GZSL 基准中提取质量较差的视觉特征,如图1所示。此外,ImageNet 与 GZSL 基准之间的偏差越大,知识转移和特征提取的效果就越差。由于细粒度数据集(例如 CUB)存在更为明显的偏差,这些通常对于所有 GZSL 方法来说产生了较差的性能。

我们进一步在实验证实了跨数据集偏差对 GZSL 性能的负面影响。在[59]中,Xian 使用 GZSL 基准的已见类别微调了在 ImageNet 上预训练的 ResNet。微调前,f-VAEGAN 在 FLO 和 AWA2 上分别达到了 64.6% 和 63.5% 的调和平均,之后这些数字增加到了 75.1% 和 65.2%,如表4所示。然而,Xian 没有对此现象进行分析或讨论。此外,尽管微调可能在一定程度上缓解跨数据集偏差,但它不可避免地会导致其他更严重的问题,例如过拟合[17,28]。因此,在 GZSL 中妥善解决跨数据集偏差的问题变得非常必要。据我们所知,我们是第一个将其视为 GZSL 中的一个待解决问题,并在本文中加以解决。

为解决上述挑战,我们提出了一种新颖的 GZSL 方法,称为广义零样本学习的特征细化(FREE),以进一步提升 GZSL 的性能。实质上,FREE 在统一的生成模型中细化视觉特征,同时有益于语义→视觉学习、特征合成和分类。具体而言,我们以 f-VAEGAN[59]为基线,学习语义→视觉映射。为了改善已见和未见类别样本的视觉特征,我们使用一个特征细化(FR)模块,它可以与 f-VAEGAN 联合优化,从而有效地避免微调的缺点。由于类别标签信息是可用的,我们引入了自适应边界中心损失(SAMC-loss),明确鼓励类内紧凑性和类间分离性,可以适应不同数据集,即粗粒度和细粒度,并指导 FR 学习具有判别性的与类别相关。
因此,不同类别的分布可以轻松分开,如图1所示。为了更好地学习与语义相关且更具区分性的视觉特征,我们在特征还原后还添加了语义循环一致性损失。通过残余信息[16],我们进一步连接了FR中各层的有区别的特征,以提取完全精炼的特征。

总之,本文提供了以下重要贡献:

  1. 我们提出了一种新颖的广义零样本学习(GZSL)方法,称为广义零样本学习的特征细化(FREE),以解决跨数据集偏差的问题,从而进一步提高了GZSL的性能。为了实现这一目标,我们探索了一种在统一框架中与语义→视觉映射协同工作的特征细化(FR)模块。重要的是,这两个模块可以共同优化。
  2. 我们提出了一种自适应边界中心损失(SAMC-loss),明确鼓励类内紧致性和类间可分性。SAMC-loss 还与语义循环一致性约束协同工作,使 FR 能够学习更有区分性的与类别和语义相关的表示,这对于 GZSL 非常重要。
  3. 在五个基准数据集(CUB、SUN、FLO、AWA1 和 AWA2)上进行的大量实验证明了所提出的 FREE 相对于其基线和当前最先进方法的优势。

数据集和评估协议

数据集。我们在五个基准数据集上评估我们的方法,即 CUB(Caltech UCSD Birds 200)[53]、SUN(SUN Attribute)[42]、FLO(Oxford Flowers)[39]、AWA1(Animals with Attributes 1)[26] 和 AWA2(Animals with Attributes 2)[58]。在这些数据集中,CUB、SUN 和 FLO 是细粒度数据集,而 AWA1 和 AWA2 是粗粒度数据集。我们采用了与 [58] 相同的已见/未见类别拆分和类别嵌入,这些信息总结在表2中。

评估协议。在测试过程中,我们采用了从 [58] 提出的统一评估协议,以便进行直接比较。由于测试集由已见类别(Ys)和未见类别(Yu)组成,我们分别评估它们的 Top-1 精度,分别表示为 S 和 U。此外,它们的调和平均值(定义为 H=(2×S×U)/(S+U))也用于评估 GZSL 的性能。

4.1. 与现有技术的比较

由于FREE是一种归纳方法,我们将其与其他最先进的归纳模型进行比较,以确保公平性。我们将比较的方法分为生成和非生成两类。表1显示了不同方法在未见类别(U)、已见类别(S)和它们的谐波平均值(H)上的前1准确率。结果显示,FREE在三个基准数据集上始终获得了谐波平均值的最佳性能,即在AWA1上为66.0,在AWA2上为67.1,在CUB上为57.7。与此同时,在SUN和FLO上,FREE在谐波平均值上分别取得了41.7和75.0的次佳结果。这些结果表明,经过优化的特征对于粗粒度和细粒度数据集上的已见/未见类别都具有判别性和通用性。值得注意的是,与其他比较的最先进方法不同,这些方法通常只在已见或未见类别上表现良好,FREE在两者上都取得了有希望的结果。这表明FREE在已见和未见类别之间保持了良好的平衡,这得益于为语义→视觉映射和FR共同训练的统一模型。具体来说,联合训练使得这两个模块能够编码类别的互补信息,并鼓励它们通过避免跨数据集偏差来学习判别性表示。

4.3. 超参数分析

平衡因子 γ

我们研究方程式(3)中的平衡因子 γ,以确定其对模型的影响。如图5所示,随着 γ 的增加,在精细粒度的数据集(例如CUB)上,S、U和H都获得了一致的提升。然而,在粗粒度的数据集(例如AWA2)上,当 γ 增加时,S、U和H持续下降。这些结果的解释如下:(1)在精细粒度的数据集上,增加类内紧凑性在类别混淆时带来更大的收益。(2)在粗粒度的数据集上,增加类间可分性显著有助于模糊类别的分类。

合成视觉特征数量 Nsyn
我们评估每个未见类别的合成视觉特征数量 Nsyn 的影响。如图6所示,FREE对所有数据集对 Nsyn 普遍不敏感。当增加合成特征的数量时,已见类别的准确性略微下降,而未见类别的准确性提高。这表明FREE还可以缓解已见-未见偏差问题。由于合成多样性存在一个上限,如果将 Nsyn 设置得太大,所有结果都会下降。因此,我们将 Nsyn 设置为分别适用于AWA1、AWA2、FLO、CUB和SUN的4600、4600、2400、700和300。

  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

computer_vision_chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值