[ECCV 2018] Learning Class Prototypes via Structure Alignment for Zero-Shot Recognition

基于结构对齐的类原型学习实现零样本识别
Learning Class Prototypes via Structure Alignment for Zero-Shot Recognition

本文亮点:双字典框架进行结构对齐。

Abstract

Zero-shot learning (ZSL) aims to recognize objects of novel classes without any training samples of specific classes, which is achieved by exploiting the semantic information and auxiliary datasets. Recently most ZSL approaches focus on learning visual-semantic embeddings to transfer knowledge from the auxiliary datasets to the novel classes. However, few works study whether the semantic information is discriminative or not for the recognition task. To tackle such problem, we propose a coupled dictionary learning approach to align the visual-semantic structures using the class prototypes, where the discriminative information lying in the visual space is utilized to improve the less discriminative semantic space. Then, zero-shot recognition can be performed in different spaces by the simple nearest neighbor approach using the learned class prototypes. Extensive experiments on four benchmark datasets show the effectiveness of the proposed approach.

翻译一下摘要:
零样本学习(ZSL)旨在通过利用语义信息和辅助数据集,来识别没有训练样本的新类的目标。最近,大多数ZSL方法集中在学习视觉-语义嵌入,将知识从辅助数据集迁移到新类别。然而,很少有工作研究语义信息对ZSL任务是否有判别性。为了解决这个问题,我们提出了一个耦合字典学习方法使用类原型来对齐视觉-语义结构,其中使用视觉空间中的判别性信息提升判别性不强的语义空间。然后,在不同的空间中用学到的类原型做简单的最近邻搜索完成零样本识别任务。四个基准数据集上的大量的实验证明了所提方法的有效性。

问题1:什么是视觉-语义结构?又是怎么对齐的?
问题2:语义信息是否具有判别性,怎么度量?具有判别性,对ZSL任务有什么好处?可解释吗?

1 Introduction

ZSL问题的背景是,收集大量图像的是困难的。一方面,稀有种类的图像收集难长尾分布);另一方面,细粒度分类的图像标注难(需专家知识)。

ZSL方法一般分为3步:
第一步,选一个语义空间,
第二步,学一个一般的视觉-语义嵌入,
第三步,执行识别任务。

Fig.1

传统ZSL方法的问题:

  1. 类别的描述不足,具体表现为人工定义或者自动获取的语义信息,是不完全的或者对分类任务判别性不足够。
    举例来讲,图1中猫和狗在语义空间中距离很近,论文暗含的意思是在视觉空间中,他们其实很远。
    原因:图像是类别的实际反馈,图像包含更多的判别信息,但是这些信息可能是无法描述的。
  2. 语义信息是独立获取的,和视觉样本无关,这导致在视觉空间和语义空间中的类结构的不一致
    导致的问题:视觉语义映射会过去复杂难以学习,即使学到了,很大概率上会在已见类上过拟合,而在未见类上扩展性不大。

本文的创新点:
1.传统方法使用视觉语义映射来实现ZSL,本文通过类原型上的结构对齐来实现该任务。
2.耦合字典学习框架,实现对视觉空间的判别特性和语义空间的丰富性的合并。
3.使用未见类的语义信息进行域自适应,增加模型对未见类的扩展性。

3 Approaches

三个部分:原型学习、结构对齐、域自适应。

Fig.2

4 Experiments

Table1

每一列依次代表:数据集图片数量,属性维数,已见类类别数(数据分割比例),未见类类别数

实验通过 比较分类准确率来对比方法的优劣。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值