AAAI 2023 | 如何识别未知标签?多模态知识迁移框架实现新SOTA

7068889e8c018aad3b4b1deb19a7c3a5.gif

©作者 | 腾讯优图实验室

来源 | 机器之心

在多标签分类系统中,经常遇到大量在训练集中未曾出现的标签,如何准确地识别这些标签是非常重要也极富挑战性的问题。为此,腾讯优图实验室联合清华大学和深圳大学,提出了一种基于多模态知识迁移的框架 MKT,利用图文预训练模型强大的图文匹配能力,保留图像分类中关键的视觉一致性信息,实现多标签场景的 Open Vocabulary 分类。本工作已入选 AAAI 2023 Oral。

1ee2ad5733e3d32041a5bbfe054b682f.png

论文标题:

Open-Vocabulary Multi-Label Classification via Multi-Modal Knowledge Transfer

论文链接:

https://arxiv.org/abs/2207.01887

代码链接:

https://github.com/sunanhe/MKT

9ffb0ac9f4ab76cdd27d55e7cfa48a67.png

背景与挑战

图像多标签识别算法的目标,是识别图像中存在的所有类别标签。作为计算机视觉应用中的一项基础能力,在场景理解、监控系统、自动驾驶等任务中有着广泛的应用。在实际落地场景中,多标签识别系统不仅需要识别图像中存在的大量已知类别标签,最好还能较为准确地识别出未知标签,即模型在训练集中未曾见过的标签。

迄今为止,典型的有监督多标签分类方法,只能在训练过的已知类别标签上进行识别,远远无法满足实际场景中对大量未知标签的识别需求。因此,如何设计有效的算法,实现在有限的已知类别标签上进行训练,并在部署时同时支持在有限的已知类别和大量未知类别上的标签识别,是实际落地场景中非常重要的问题。

e2a201a7b5c49872ccf3328acecd5b7a.png

解决思路

为了识别这些训练集未知标签,已有的多标签零样本学习(ML-ZSL)方法,往往通过从训练集已知标签到训练集未知标签的知识迁移,来实现对未知标签的识别。然而,这些方法存在以下问题:

1. 这些方法只利用预训练语言模型(如 GloVe)的单模态知识,来提取已知和未知标签的 Embedding,如图 1. (b) 所示,而忽视了文本标签的视觉语义信息;

2. 尽管 GloVe 等语言模型可以比较好地提取单个 Word 标签的 Embedding,如 'Cat',但是不能很好地扩展到由多个 Word 组成的标签,如 'Black Cat',因而妨碍了模型在词组标签上的识别效果。

单模态的语言模型虽然很好地建模了标签之间的语义一致性,但忽视了图像分类中关键的视觉一致性信息。近来,基于图文预训练模型的 Open Vocabulary 分类模型,在单标签 Open Vocabulary 分类任务上取得了令人印象深刻的效果,但如何将这种能力迁移到多标签场景,仍是亟待探索的问题。

由此,研究者提出了一种基于多模态知识迁移(Multi-modal Knowledge Transfer, MKT)的框架,通过迁移大规模图文预训练模型中的多模态知识,挖掘文本标签中的视觉一致性信息,实现了多标签的 Open Vocabulary 分类

如图 1. (c) 所示,MKT 模型主要包含图像编码器和图文预训练模型的图像、文本编码器。研究者采用知识蒸馏(Knowledge Distillation)和提示学习(Prompt-Tuning)来进一步增强图像和文本 Embedding 的语义一致性,从而更好地迁移图文模型的图文匹配能力。在实践中,知识蒸馏使得图像编码器提取的图像 embedding 更好地与其相对应的文本 Embedding 对齐,而提示学习使得标签 Embedding 更好地适应分类任务。

除此之外,为了进一步提升特征表达能力,研究者提出了一种简单有效的双流特征提取模块,同时捕获局部和全局特征,从而增强模型的判别特征表示能力。通过上述设计,MKT 框架可以更好地利用图文模型中丰富的语义信息,迁移多模态知识,更好地识别训练集未知标签。

df4e98628619fb6a061c7253697708ad.png

▲ 图1. ML-ZSL 和 MKT 方法比较

5a4703bf1f8b2337e1dd6c1fb24cb567.png


技术贡献

该研究的主要技术贡献可概括为如下几点:

1. 研究者提出了一种基于多模态知识迁移的 Open Vocabulary 多标签识别框架 MKT,利用图文预训练模型中的多模态语义信息,进行未知标签的识别。这是业界首个研究 Open Vocabulary 多标签分类任务的工作。

2. MKT 框架主要包括图像编码器,和图文预训练模型的图像和文本编码器。研究者采用知识蒸馏来保证图像和文本 Embedding 的一致性,并引入提示学习机制来迭代更新标签 Embedding。为进一步增强特征表示能力,研究者提出了双流特征提取模块,同时捕获局部和全局特征。

3. MKT 在 NUS-WIDE 和 Open Images 公开数据集上显著超过了以往的 ML-ZSL 方法,在 Open Vocabulary 多标签分类任务上达到 SOTA。

8ec7c601d38a5f7eca0bf20972053c15.png

技术方案

MKT 总体框图如图 2. 所示,主要包含 Vision Transformer、双流模块(Two-Stream Module)、图文预训练(VLP)Image/Text Encoder 等模块。其中,Vision Transformer 是提取图片语义特征的 Backbone 网络。

由于 CLIP 具有强大的图文匹配能力,研究者采用 CLIP 的图像和文本编码器作为图文模型多模态知识的迁移来源。标签 Embedding 由 CLIP 文本编码器产生,并通过提示学习进一步更新。研究者引入知识蒸馏来促进图像和文本 Embedding 的对齐。

e9759115b7c2a0f301ced0d8c2b01fec.png

▲ 图2. MKT 总体框图

1. Backbone 网络和双流模块

对于一张图片,首先经过分块(Patchify)输入 Vision Transformer 网络,得到表征全局特征的 CLS Feature 和表征局部特征的 Patch Feature,然后分别采用全局 Head 和局部 Head,将全局和局部特征映射到 Embedding 空间,最后采用 TopK 平均的方式得到局部 Head 的相似度分数,与全局 Head 分数求平均得到最终预测分数,并采用排序损失(Ranking Loss)优化模型:

fedf4aaf5d37e9ed7a885b0709f5a87c.png

其中 表示图片 的标签 Embedding,, 表示内积运算, 表示图片 的 标签预测分数向量, 表示图片 存在标签的集合,是已知标签集合的子集。

2. 知识蒸馏和特征对齐

图像 Embedding 和对应标签 Embedding 的对齐,在从已知标签到未知标签的知识迁移过程中非常重要,对于开放集合多标签分类来说是十分关键的。考虑到 CLIP 模型在预训练阶段进行图文对比训练,产生的图像和文本 Embedding 具有比较高的相似性,研究者采用知识蒸馏来迁移 CLIP 模型的多模态特征表示能力,促进图像 Embedding 和相关文本 Embedding 之间的对齐,蒸馏损失函数如下式:

f4ba9179a52fbb391480e9fcea5e5803.png

其中 是图像全局特征, 是 CLIP 图像编码器产生的特征。

3. 标签 Embedding 的提示学习

参照 CLIP,研究者首先使用固定模板 "There is a {label} in the scene" 作为标签上下文,将标签文本送入 CLIP 文本编码器,从而得到标签 Embedding。由于固定模板的文本与 CLIP 训练时的自然文本存在差异,有理由认为通过这种方式产生的标签 Embedding 不是最优的。

因此,最好对标签 Embedding 的产生过程进行进一步 finetune,但是由于训练标签数量有限,直接优化文本编码器容易造成过拟合。受到 CoOp 的启发,研究者采用提示学习,仅优化上下文 Embedding,其余模型参数均固定,这种在 Embedding 空间连续搜索的方式能够促进最优上下文 Embedding 的学习,从而得到更好的标签 Embedding。

4. 损失函数

研究者将 MKT 训练过程分为两个阶段。在第一阶段,标签 Embedding 由预训练的 CLIP 文本编码器产生,Backbone 网络和双流模块由排序损失和蒸馏损失联合优化:

940fec075867e89ad57814bdcd2a70e6.png

在第二阶段,采用排序损失进行提示学习,只优化标签上下文 Embedding:

88adb3d06582f1353f3d86dd0c86a9e0.png

960b0d8dbf955b89c758a1d664a94c61.png

算法效果

为了验证算法的效果,研究者在 NUS-WIDE 和 Open Images 两个 Benchmark 数据集上进行实验。NUS-WIDE 数据集包含 925 个已知标签,81 个未知标签,161,789 张训练图片,107,859 张测试图片。更具挑战性的 Open Images (v4) 数据集包含 7,186 个已知标签,400 个未知标签,900 万张训练图片,125,456 张测试图片。

实验结果见表 1.,可以看出 MKT 相比以往 ML-ZSL 的 SOTA 方法有明显提升,也显著优于直接微调(Fine Tune)CLIP 模型的结果(CLIP-FT)。

0a4d37874290cbb858f5cd6da6b832ed.png

▲ 表1. 不同方法在 NUS-WIDE 和 Open Images 数据集上 ZSL 和 GZSL 任务的比较

MKT 和 CLIP、BiAM 模型,在 NUS-WIDE 测试集上的示例图片可视化效果对比见图 3。

63f7663472a830e82abf0a6275cb5035.png

▲ 图3. NUS-WIDE 测试集示例图片及预测

MKT 和 BiAM 的 Grad-CAM 可视化效果对比见图 4。

f4f409c772bdfd0972abec0128c8ab2c.png

▲ 图4. Grad-CAM 可视化比较

在表 2 和表 3 的消融实验中,研究者对知识蒸馏、提示学习和双流模块进行了探索,验证了这些模块对于 MKT 框架多标签识别效果的重要性。

65a34fa1de702d3f8e2170cf2058235c.png

▲ 表2. 知识蒸馏和提示学习对实验结果的影响

f203839ac4350869b419a6937ef1e612.png

▲ 表3. 双流模块对实验结果的影响

9ea3c6907da1695afc676d90aff70246.png


总结

腾讯优图实验室针对现有多标签分类方法对于大量训练集不可见的未知类别标签不能有效识别的问题,提出了一种可迁移多模态知识的通用 Open Vocabulary 多标签学习框架:MKT。

该研究迁移图文预训练模型强大的图文匹配能力,通过引入提示学习和知识蒸馏来优化标签 Embedding 以及提升图像 - 标签 Embedding 的一致性,并采用双流模块同时捕捉局部和全局特征,提高了模型的多标签识别能力。在 NUS-WIDE 和 Open Images 两个公开数据集上的实验结果表明,该方法有效实现了 Open Vocabulary 的多标签学习。

outside_default.png

参考文献

outside_default.png

[1] Pennington J, Socher R, Manning CD. Glove: Global vectors for word representation. InProceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) 2014 Oct (pp. 1532-1543).

[2] Radford A, Kim JW, Hallacy C, Ramesh A, Goh G, Agarwal S, Sastry G, Askell A, Mishkin P, Clark J, Krueger G. Learning transferable visual models from natural language supervision. InInternational Conference on Machine Learning 2021 Jul 1 (pp. 8748-8763). PMLR.

[3] Du Y, Wei F, Zhang Z, Shi M, Gao Y, Li G. Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2022 (pp. 14084-14093).

[4] Huynh D, Kuen J, Lin Z, Gu J, Elhamifar E. Open-vocabulary instance segmentation via robust cross-modal pseudo-labeling. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2022 (pp. 7020-7031).

[5] Zhou K, Yang J, Loy CC, Liu Z. Learning to prompt for vision-language models. International Journal of Computer Vision. 2022 Sep;130 (9):2337-48.

[6] Huynh D, Elhamifar E. A shared multi-attention framework for multi-label zero-shot learning. InProceedings of the IEEE/CVF conference on computer vision and pattern recognition 2020 (pp. 8776-8786).

[7] Ben-Cohen A, Zamir N, Ben-Baruch E, Friedman I, Zelnik-Manor L. Semantic diversity learning for zero-shot multi-label classification. InProceedings of the IEEE/CVF International Conference on Computer Vision 2021 (pp. 640-650).

[8] Narayan S, Gupta A, Khan S, Khan FS, Shao L, Shah M. Discriminative region-based multi-label zero-shot learning. InProceedings of the IEEE/CVF International Conference on Computer Vision 2021 (pp. 8731-8740).

更多阅读

250a7cc72f724cbc98f04919ff0ec868.png

fb25717aad4cfb6be8dfefed070797af.png

f0060c72900eca4d80604bc245198a3b.png

4679e5352781d25c11bbcc9bbac23b73.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

623e0d1f042ba649ff7dc179a6944c55.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

e837f634c32fd3909acf58dc3f2fbd58.jpeg

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值