NeurIPS | 达摩院联合华科开源基于流形结构对齐的零样本学习框架HSVA

AI记忆

已于 2023-03-30 10:59:08 修改

阅读量1.9k

点赞数 2

分类专栏：深度学习论文与相关应用文章标签：人工智能深度学习 NeurIPS 零样本 HSVA Powered by 金山文档

于 2023-02-22 10:55:02 首次发布

本文链接：https://blog.csdn.net/sunbaigui/article/details/129158064

版权

深度学习论文与相关应用专栏收录该内容

94 篇文章 223 订阅

订阅专栏

团队模型、论文、博文、直播合集，点击此处浏览

一、论文&代码

论文链接：HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning

开源代码：https://github.com/shiming-chen/HSVA

二、背景

本文介绍我们被机器学习顶会NeurIPS 2021 接收的论文 “HSVA: Hierarchical Semantic-Visual Adaptationfor Zero-Shot Learning”。Zero-shot learning (ZSL) 解决了unseen的类别识别问题，将语义知识从看得见的类别迁移到看不见的类别。通常，为了保证理想的知识迁移，采用公共（潜在）空间来关联 ZSL 中的视觉和语义域。然而，现有的通用空间学习方法仅通过一步适应来减轻分布不一致，从而对齐语义和视觉域。由于两个域中特征表示的异质性，这种策略通常是无效的，这两个域本质上包含分布和结构变化。为了解决这个问题，我们提出了一种新颖的层次化语义-视觉适应 (HSVA) 框架。

1.）Zero-shot Learning

如何将机器学习模型从已知的知识泛化到未知的场景？

2.） Formal Formulation of ZSL

3.）HSVA Motication

ZSL核心需要解决的是如何把已见类的语义知识迁移到未见类上。目前的方法更倾向于设计一个可以拉近语义和视觉分布的commonspace, 如下图的(a)。但是由于视觉和语义信息是异构的，这就使得这两种信息之间的差异还应该包含结构上的不同,如下图(a)，传统的ZSL之拉近视觉和语义信息之间的分布，会导致语义信息和视觉信息还是保留本身的流形结构。进一步，通过(c)和(d)的可视化也可以看到如果不加上流形结构上的对齐，不同类之间的边界不是很明显。

三、方法

基于上述的分析，我们在传统的one-stepzsl算法中(上图中的backbone net + distribution-adptation module)引入了structure-adaptionmodule来拉近视觉和语义信息之间的结构差异。

1.）Structure-Adaptation

●Semantic and Visual Embedding Classification

训练语义和视觉的分类器

●Discrepancy Maximization for Classifiers.

固定Encoder中的参数，最大化两个分类器之间的差异，使得视觉和语义信息的决策边界更明显

●Discrepancy Minimization for Encoders.

固定分类器中的参数，缩小encoder生成的视觉和语义信息的差异，使得视觉和语义信息的距离更近。

2.）Distribution Adaptation

为了保留structureadaption对齐的结构信息，这个模块跟[1],[2],[3],[4],[5]中所阐述的one-step zsl 采用2个encoder不同, 我们采用了一个commonencoder.

●拉近视觉和语义信息潜在的多元高斯分布的距离

●为了避免未见类拟合到已见类，由于CORA可以很好地解决非对称性变化的域适应问题，我们用CORAL来衡量已见类和未见类之间的差异并增大。

3.）Optimization

四、结果

五、应用

本文模型可以灵活应用在视觉任务的冷启动训练上。另外给大家介绍下CV域上的开源免费模型，欢迎大家体验、下载（大部分手机端即可体验）：

https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary

https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary

https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary

https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary

https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary

https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary

https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary

https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary

https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary

https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary

https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary

https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary

AI记忆

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
NeurIPS | 达摩院联合华科开源基于流形结构对齐的零样本学习框架HSVA

本文介绍零样本学习框架HSVA。通常，为了保证理想的知识迁移，采用公共（潜在）空间来关联 ZSL 中的视觉和语义域。然而，现有的通用空间学习方法仅通过一步适应来减轻分布不一致，从而对齐语义和视觉域。由于两个域中特征表示的异质性，这种策略通常是无效的，这两个域本质上包含分布和结构变化。为了解决这个问题，我们提出了一种新颖的层次化语义-视觉适应 (HSVA) 框架。
复制链接

扫一扫