Few-shot Daily 2023/01/18

公众号:皮皮嬉

Few-shot相关


DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning
AAAI 2023 Oral

浙江大学,曼彻斯特大学,爱丁堡大学,东海实验室,阿里巴巴-浙江大学前沿技术联合研究中心

https://arxiv.org/pdf/2207.01328.pdf

零样本学习(Zero-shot Learning, ZSL)旨在预测从未见过的类别,其样本在训练过程中从未出现过。属性attributes是零样本图像分类中最有效且使用最广泛的语义信息之一,它是对类级class-level视觉特征的标注。然而,由于细粒度标注的缺乏,以及属性不平衡和共现现象,现有方法往往无法区分图像之间细微的视觉差异。本文提出一种基于transformer的端到端ZSL方法DUET,通过一种自监督多模态学习范式集成预训练语言模型(PLMs)的潜在语义知识。(1)开发了cross-modal semantic grounding network,以研究该模型从图像中解耦语义属性的能力;(2)应用属性级对比学习策略,进一步增强模型对细粒度视觉特征的识别能力,防止属性共现和不平衡问题;(3)提出了一种考虑多模型目标的多任务学习策略。DUET可以在三个标准ZSL基准和一个配备知识图谱的ZSL基准上取得最先进的性能。它的组件是有效的,它的预测是可解释的。


Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models

卡耐基梅隆大学

项目网站:https://linzhiqiu.github.io/papers/cross_modal/

以最少的指令快速学习新任务的能力-称为小样本学习-是智能体的一个核心方面。经典的小样本基准利用单一模态的少样本,但这样的样本可能不足以表征整个概念类。相比之下,人类使用跨模态信息来有效地学习新概念。本文证明,人们确实可以通过阅读狗并听它们吠叫来建立一个更好的视觉狗分类器。我们利用最近的多模态基础模型(如CLIP)本质上是跨模态的这一事实,将不同的模态映射到相同的表示空间。本文提出一种简单的跨模态自适应cross-modal adaptation方法,从跨越不同模态的小样本数据中获得收益。通过重新利用类名作为额外的单次训练样本,用一个非常简单的视觉-语言自适应线性分类器实现了SOTA结果。该方法可以有利于现有的方法,如prefix tuning、adapters和classifier ensembling。为了探索视觉和语言之外的其他模态,我们构建了第一个(据我们所知)视听audiovisual小样本基准,并使用跨模态训练来提高图像和音频分类的性能。


Disambiguation of One-Shot Visual Classification Tasks: A Simplex-Based Approach

Lab-STICC

https://arxiv.org/pdf/2301.06372.pdf

视觉小样本分类领域的目的是将深度学习视觉系统的最先进性能转移到只有非常有限的训练样本的任务上。主要解决方案是使用大型和多样化的数据集训练一个特征提取器,以应用于考虑的小样本任务。由于特征提取器中编码的先验信息,每个类别只有一个示例(或“shot”)的分类任务可以高精度地解决,即使shots显示的是不代表其类别的单个特征。然而,当一些给定的shots显示多个对象时,问题变得更加复杂。本文提出一种策略,旨在检测给定shots中是否存在多个未见过的物体。该方法基于高维空间中单纯形的角点识别。本文提出一种优化程序,并展示了其在原始图像中成功检测多个(以前未见过)目标的能力。我们引入了一个下游分类器,旨在利用多个目标的存在来提高小样本分类性能,在极端设置的情况下,其类别只给出一个样本。使用该领域的标准基准,展示了所提出方法在这些设置中略微提高准确性的能力,但在统计上有显著提高。


Modeling Uncertain Feature Representation for Domain Generalization

ICLR 2022

北京大学,新加坡科技与设计大学,ARC-lab,腾讯PCG,鹏城实验室

https://arxiv.org/pdf/2301.06442.pdf

https://github.com/lixiaotong97/DSU

尽管深度神经网络在各种视觉任务上取得了令人印象深刻的成功,但在分布外场景中测试模型时,性能仍然存在明显的下降。为了解决这一限制,本文考虑可以适当地操作承载训练数据领域特性的特征统计(均值和标准差),以提高深度学习模型的泛化能力。现有方法通常将特征统计量视为从学习到的特征中测量出来的确定性值,并且没有明确地对测试过程中潜在的域偏移造成的不确定统计差异进行建模。本文通过对具有不确定性的域偏移(domain shifts with uncertainty,DSU)进行建模来提高网络的泛化能力,即在训练过程中将特征统计刻画为不确定分布。具体来说,假设特征统计量在考虑了潜在的不确定性后,服从多元高斯分布。在推理过程中,提出了一种实例自适应策略,可以自适应地处理不可预见的变化,并以可忽略不计的额外成本进一步增强训练模型的泛化能力。文中还从泛化误差界和隐式正则化效果等方面进行了理论分析,验证了所提方法的有效性。广泛的实验表明,所提出方法持续提高了网络在多个视觉任务上的泛化能力,包括图像分类、语义分割、实例检索和姿态估计。所提出方法简单而有效,可以很容易地集成到网络中,而不需要额外的可训练参数或损失约束。


Distribution Aligned Feature Clustering for Zero-Shot Sketch-Based Image Retrieval

北京科技大学

https://arxiv.org/pdf/2301.06685.pdf

零样本草图图像检索(Zero-Shot Sketch-Based Image Retrieval, ZS-SBIR)是一项具有挑战性的跨模态检索任务。在现有技术中,检索是通过对查询草图与图库中每张图像之间的距离进行排序来进行的。然而,域间差异和零样本设置使神经网络难以泛化。本文从一个新的角度来解决这些挑战:利用图库图像特征。本文提出一种先聚类再检索(ClusterRetri)方法,对图库图像进行聚类,并使用聚类质心作为检索的代理。此外,提出一种分布对齐损失,将图像和草图特征对齐到共同的高斯分布,减少域间差距。尽管很简单,所提出的方法在流行的数据集上很大程度上超过了最先进的方法,例如,在Sketchy和TU-Berlin数据集上mAP@all的相对性能提高了31%和39%。


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值