Few-shot Daily 2023/01/11

公众号:皮皮嬉

Few-shot相关


Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation

浙江大学、腾讯优图实验室、武汉大学、北京大学

https://arxiv.org/pdf/2301.01156.pdf

https://github.com/hanyue1648/RefT

小样本实例分割FSIS需要模型能够检测和分割仅有少量support样本的新类别。我们提出了FSIS简单且统一的解决方案机器增量变体,我们介绍了一个新的框架Reference Twice (RefT),它能够基于transformer-like结构探索support/query特征间的关系。我们的主要见解有两个方面:第一,借助support掩码,我们可以更适当地生成动态类中心来重新加权query特性。第二,我们发现support object queries已经在预训练后编码了关键因素。用这种方式,query特征能从两个方面被增强两次,即特征层面和实例层面。具体地,我们首先设计了一个基于掩码的动态加权模块来增强support特征,然后提出通过交叉注意力链接目标query以更好地校准。经过以上步骤,query特征可在我们的baseline之上得到明显的改善。此外,我们的方法可以在小改动后扩展至增量FSIS。在COCO数据集上对FSIS、gFSIS和iFSIS设置进行基准测试时,与现有方法相比,该方法在不同shots下取得了有竞争力的性能,例如,在10/30shots下,与当前最先进的FSIS方法相比,nAP显著提高了+8.2/+9.4。我们进一步证明了所提出方法在小样本目标检测上的优越性。


Masked autoencoders are effective solution to transformer data-hungry

杭州电子科技大学

https://arxiv.org/pdf/2212.05677.pdf

https://github.com/Talented-Q/SDMAE

ViT凭借其全局建模能力,在一些视觉任务中优于卷积神经网络(cnn)。然而,ViT缺乏卷积固有的归纳偏差,这使得它需要大量的数据进行训练。这导致ViT在医学和科学等小型数据集上的表现低于cnn。实验发现,MAE可以使transformer更多地关注图像本身,从而在一定程度上缓解了ViT的数据饥渴问题。然而,目前的MAE模型过于复杂,在小数据集上存在过拟合问题。这导致在小数据集上训练的MAEs和高级cnn模型之间仍然存在差距。为此,本文研究如何降低MAE中解码器的复杂度,并找到一种更适用于小数据集的结构配置。此外,我们设计了位置预测任务和对比学习任务,为MAE引入定位和不变性特征。对比学习任务不仅使模型能够学习高层次的视觉信息,还允许训练MAE的类标记,这是大多数MAE改进工作中没有考虑到的。在标准的小型数据集和小样本的医学数据集上的广泛实验表明,与当前流行的掩码图像建模(MIM)和小数据集ViT相比,所提出方法可以达到最先进的性能。


A Closer Look at Novel Class Discovery from the Labeled Set

Workshop on Distribution Shifts, NeurIPS 2022

Hasso Plattner Institute、香港中文大学、人民大学

https://arxiv.org/pdf/2209.09120.pdf

新类发现(Novel Class Discovery, NCD)是利用由不同但相关的类组成的标记集的先验知识,在未标记集中推断出新的类别。现有的研究主要集中在方法上使用标记集,很少对其进行分析。本文仔细研究了标记集的NCD,并关注两个问题:(i)给定一个未标记集,什么样的标记集最能支持新类发现?(ii) NCD的一个基本前提是标记的集合必须与未标记的集合相关,但是我们如何衡量这种关系?对于(i),本文提出并证实了一个假设,即NCD可以从与未标记集具有高度语义相似性的标记集中受益。利用ImageNet的分层类结构,我们创建了一个在有标签/无标签数据集之间具有可变语义相似性的大规模基准。相比之下,现有的NCD基准测试忽略了语义关系。对于(ii),我们引入了一种数学定义,用于量化已标记和未标记集合之间的语义相似性。我们利用这个指标来验证我们建立的基准,并证明它与NCD性能高度相关。此外,由于缺乏定量分析,已有工作普遍认为标签信息总是有益的。然而,与直觉相反的实验结果表明,在低相似性设置中,使用标签可能会导致次优的结果。


CDA: Contrastive-adversarial Domain Adaptation

东北大学、Hitachi Industrial AI Lab

https://arxiv.org/pdf/2301.03826.pdf

领域自适应的最新进展表明,深度神经网络上的对抗学习可以学习域不变特征,以减少源域和目标域之间的漂移。虽然这种对抗性方法实现了领域级对齐,但它们忽略了类(标签)偏移。当源域和目标域的类条件数据分布差异显著时,该方法会在类边界附近产生更容易被错分的模糊特征。本文提出一种两阶段的域适应模型,称为对比-对抗域适应(Contrastive-adversarial Domain Adaptation,CDA)。虽然对抗性组件促进了域级对齐,但两阶段对比学习利用类信息实现跨域更高的类内紧凑性,从而形成分离良好的决策边界。此外,所提出的对比框架被设计为即插即用模块,可以很容易地嵌入现有的对抗方法以进行域适应。在两个广泛使用的领域适应基准数据集上进行了实验,即Office-31和Digits-5,并表明CDA在两个数据集上都取得了最先进的结果。


Learning from What is Already Out There: Few-shot Sign Language Recognition with Online Dictionaries

IEEE Face & Gestures 2023

University of West Bohemia、Gymnasium of Johannes Kepler

https://arxiv.org/pdf/2301.03769.pdf

**今天的手语识别模型需要大量类似实验室的视频训练语料库,这些语料库的收集涉及大量的人力和财务资源。因此,只有少数这样的系统公开可用,更不用说它们对较少人使用的手语的有限本地化能力。**利用在线文本到视频词典(固有地保存各种属性和手语的注释数据),并以小样本的方式训练模型,为这项技术的普及提供了一条有希望的道路。本文收集并开源了UWB-SL-Wild小样本数据集,这是第一个由字典抓取的视频组成的训练资源。该数据集代表了现有在线手语数据的实际分布和特征。选择了与现有数据集WLASL100和ASLLVD直接重叠的注释,并共享其类映射,以进行迁移学习实验。除了提供基于姿势的架构上的基线结果外,本文提出了一种在小样本场景下训练手语识别模型的新方法,在ASLLVD-Skeleton和ASLLVD-Skeleton-20数据集上取得了最先进的结果,top1准确率分别为30.97%和95.45%。


Learning Support and Trivial Prototypes for Interpretable Image Classification

阿德莱德大学、哈佛大学、St Vincent’s Institute of Medical Research、萨里大学

https://arxiv.org/pdf/2301.04011.pdf

原型网络(ProtoPNet)方法旨在通过将预测样本与一组可训练的原型相关联来实现可解释的分类,我们将这些原型称为trivial(即易于学习)的原型,因为它们在特征空间中被训练得远离分类边界。值得注意的是,我们可以在ProtoPNet和支持向量机(SVM)之间进行类比,因为两种方法的分类都依赖于与一组训练点(即ProtoPNet中的trivial原型和SVM中的支持向量)的相似度计算。然而,trivial的原型远离分类边界,但支持向量位于该边界附近,这种与完善的SVM理论的差异会导致ProtoPNet模型具有次优的分类精度。本文根据SVM理论,提出了一种学习特征空间中靠近分类边界的支持原型的新方法,旨在提高ProtoPNet的分类精度。此外,本文还提出了一个新的模型ST-ProtoPNet来提高分类的可解释性,该模型利用我们的support原型和trivial原型来提供补充的可解释性信息。在CUB-200-2011、Stanford Cars和Stanford Dogs数据集上的实验结果表明,所提方法达到了最先进的分类精度,并产生了视觉上更有意义和多样化的原型。


其他


Vision Transformers Are Good Mask Auto-Labelers

NVIDIA、Meta AI, FAIR、复旦大学、加利福尼亚理工学院

https://arxiv.org/pdf/2301.03992.pdf

https://github.com/NVlabs/mask-auto-labeler

本文提出掩码自动标记器(Mask Auto-Labeler,MAL),一种基于transformer的高质量掩码自动标记框架,用于仅使用框注释box annotations进行实例分割。MAL将box裁剪的图像作为输入,并有条件地生成它们的掩码伪标签。我们发现ViT是很好的掩模自动标记器。该方法大大缩小了自动标记和人工标注之间关于掩膜质量的差距。使用MAL生成的掩码训练的实例分割模型几乎可以匹配其全监督对应模型的性能,保留了高达97.4%的全监督模型性能。最好的模型在COCO实例分割上取得了44.1%的mAP (test-dev 2017),明显优于最先进的box-supervised监督方法。定性结果表明,在某些情况下,MAL产生的掩模甚至比人工标注的效果更好。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值