AAAI | 达摩院联合华科开源基于Transformer的零样本学习框架TransZero

团队模型、论文、博文、直播合集,点击此处浏览

一、论文&代码

论文链接:TransZero: Attribute-guided Transformer for Zero-Shot Learning

开源代码:https://github.com/shiming-chen/TransZero

二、背景

本文介绍我们被机器学习顶会AAAI 2022接收的论文 “TransZero: Attribute-guided Transformer for Zero-ShotLearning”。零样本学习 (ZSL) 旨在通过将语义知识从已见类迁移到未见类来识别新类。语义知识是从不同类别之间共享的属性描述中学习的,这些属性描述作为定位代表判别区域特征的对象属性的强先验,实现了重要的视觉语义交互。尽管一些基于注意力的模型试图在单个图像中学习此类区域特征,但视觉特征的可转移性和判别性属性定位通常被忽略。在本文中,我们提出了一个属性引导的 Transformer 网络,称为 TransZero,以细化视觉特征并学习 ZSL 中判别视觉嵌入表示的属性定位。

1.)Zero-shot Learning 定义

Zero-shot learning (ZSL)指的是我们之前没有这个类别的训练样本。但是我们可以学习到一个映射X->Y。如果这个映射足够好的话,我们就可以处理没有看到的类了。 比如,我们在训练时没有看见过狮子的图像,但是我们可以用这个映射得到狮子的特征。一个好的狮子特征,可能就和猫,老虎等等比较接近,和汽车,飞机比较远离。

2.) TransZero Motivation

 基于现有注意力机制的ZSL方法只是学习区域的embedding(例如,整个鸟体),忽略了视觉特征的可转移性(from seen to unsen)以及判别性的属性定位(例如,独特的鸟类(身体部位)b) 我们的TransZero减少了区域特征之间的耦合关系,因此提升了视觉特征的的可转移性,同时我们的TransZero可以预测attribute的位置,进一步帮助视觉语义特征的交互。

三、方法

基于上述的分析,我们在传统的one-stepzsl算法中(上图中的backbone net + distribution-adptation module)引入了structure-adaptionmodule来拉近视觉和语义信息之间的结构差异。

1.)Feature Augmentation Encoder

文章[1]提出了在ImageNet和ZSL数据集上存在明显额cross-datasetbias ,因此我们提出了Feature Augmentation Encoder 来增强视觉特征。 同时我们还引入了feature-augmentedscaled dot-product attention机制来减少gird features之间的集合联系。

●计算gird features的中心坐标



●构建grid i 和grid j之间的geometry features

●Feature Augmentation Encoder

2.) Visual-Semantic Decoder

四、结果

大量实验表明,TransZero 在三个 ZSL 基准测试中达到了最先进的水平。

可视化表明我们的方法可以定位到更具判别性的visualfeature

五、应用

本文模型可以灵活应用在视觉任务的冷启动训练上。另外给大家介绍下CV域上的开源免费模型,欢迎大家体验、下载(大部分手机端即可体验):

https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary

https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary

https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary

https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary

https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary

https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary

https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary

https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary

https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary

https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary

https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary

https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI记忆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值