AAAI | 达摩院联合华科开源基于Transformer的零样本学习框架TransZero

AI记忆

已于 2023-03-30 10:59:40 修改

阅读量4.6k

点赞数 3

分类专栏：深度学习论文与相关应用文章标签：深度学习人工智能 AAAI 零样本 TransZero

于 2023-02-22 11:21:29 首次发布

本文链接：https://blog.csdn.net/sunbaigui/article/details/129158406

版权

深度学习论文与相关应用专栏收录该内容

101 篇文章

订阅专栏

TransZero是一种属性引导的Transformer网络，设计用于零样本学习，通过强化视觉特征的可转移性和属性定位提升识别性能。该模型在ZSL基准测试中达到最先进的水平，可用于视觉任务的冷启动训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

团队模型、论文、博文、直播合集，点击此处浏览

一、论文&代码

论文链接：TransZero: Attribute-guided Transformer for Zero-Shot Learning

开源代码：https://github.com/shiming-chen/TransZero

二、背景

本文介绍我们被机器学习顶会AAAI 2022接收的论文 “TransZero: Attribute-guided Transformer for Zero-ShotLearning”。零样本学习 (ZSL) 旨在通过将语义知识从已见类迁移到未见类来识别新类。语义知识是从不同类别之间共享的属性描述中学习的，这些属性描述作为定位代表判别区域特征的对象属性的强先验，实现了重要的视觉语义交互。尽管一些基于注意力的模型试图在单个图像中学习此类区域特征，但视觉特征的可转移性和判别性属性定位通常被忽略。在本文中，我们提出了一个属性引导的 Transformer 网络，称为 TransZero，以细化视觉特征并学习 ZSL 中判别视觉嵌入表示的属性定位。

1.）Zero-shot Learning 定义

Zero-shot learning (ZSL)指的是我们之前没有这个类别的训练样本。但是我们可以学习到一个映射X->Y。如果这个映射足够好的话，我们就可以处理没有看到的类了。比如，我们在训练时没有看见过狮子的图像，但是我们可以用这个映射得到狮子的特征。一个好的狮子特征，可能就和猫，老虎等等比较接近，和汽车，飞机比较远离。

2.） TransZero Motivation

基于现有注意力机制的ZSL方法只是学习区域的embedding（例如，整个鸟体），忽略了视觉特征的可转移性（from seen to unsen）以及判别性的属性定位（例如，独特的鸟类(身体部位）b）我们的TransZero减少了区域特征之间的耦合关系，因此提升了视觉特征的的可转移性，同时我们的TransZero可以预测attribute的位置，进一步帮助视觉语义特征的交互。

三、方法

基于上述的分析，我们在传统的one-stepzsl算法中(上图中的backbone net + distribution-adptation module)引入了structure-adaptionmodule来拉近视觉和语义信息之间的结构差异。

1.）Feature Augmentation Encoder

文章[1]提出了在ImageNet和ZSL数据集上存在明显额cross-datasetbias ，因此我们提出了Feature Augmentation Encoder 来增强视觉特征。同时我们还引入了feature-augmentedscaled dot-product attention机制来减少gird features之间的集合联系。

●计算gird features的中心坐标