few-shot调研

清澈明朗_

已于 2024-04-19 16:12:15 修改

阅读量1.1k

点赞数 16

文章标签：人工智能机器学习深度学习

于 2024-04-19 13:42:17 首次发布

本文链接：https://blog.csdn.net/mango_july/article/details/137827048

版权

Logarithm-transform aided Gaussian Sampling for Few-Shot Learning

对数变换辅助高斯采样的少样本学习，2023发布在iccv

领域：图像分类

数据集：1、miniImageNet，它有100个不同的类，每个类600张图像，每个大小为84 × 84 × 3

2、CUB，共有11，788幅图像，每幅大小为84 × 84 × 3，包含200种不同种类的鸟类。

总结：该论文提出了一种新的高斯转换方法，可以将实验数据转换为更接近高斯分布的数据，并将其应用于小样本图像分类中。实验结果表明，该方法在性能上取得了显著提升，同时减少了所需的数据量。

Memory-augmented Variational Adaptation for Online Few-shot Segmentation

面向在线少样本分割的记忆增强变分自适应方法，2023发布在iccv

领域：语义分割

数据集：1、PAS-CAL，包含20个类别，分为15个训练类和5个测试类

2、COCO，包括60个训练类和20个测试类

3、ABD-MRI-20，包含20个3D T2-SPIR MRI扫描，每个扫描包含四个器官，即肝脏、脾脏和左右肾脏。

总结：本文提出了一种针对在线少量样本图像语义分割的方法，即记忆增强变分自适应网络（MaVAN），该方法通过引入外部记忆来保留先前样本的信息，并将其用于动态支持集以提高模型的适应能力。同时，作者还提出了特征定制模块，以学习每个样本的特定表示，从而更好地适应不同的样本。实验结果表明，该方法在自然图像和医学图像数据集上均取得了最先进的性能。

A Comparative Study of Vision Transformer Encoders and Few-shot Learning for Medical Image Classification

视觉变换编码器与小样本学习在医学图像分类中的对比研究，2023发布在iccv

领域：图像分类

数据集：1、ISIC 2018，包含 10,015 张皮肤病变的显微镜图像，分为七类，其中4个为训练类，3个为测试类

2、BreakHis，包含 9,109 张乳腺肿瘤组织的显微镜图像，分为八类，其中5个为训练类，3个为测试类

3、Pap smear，包含 917 张宫颈涂片的显微镜图像，不均匀地分布在七个不同的类中，其中4个为训练类，3个为测试类

总结：本文研究了vit在少样本学习的框架下医学图像分类中的应用，结果表明，结合ProtoNets算法，ViT模型比基于CNN的模型表现更好。

FewFaceNet: A Lightweight Few-Shot Learning-based Incremental Face Authentication for Edge Cameras

FewFaceNet：一种轻量级的基于小样本学习的边缘相机增量人脸认证，2023发布在iccv

领域：人脸识别

数据集：

训练集：(1) Labelled Faces in the Wild ( LFW ) Dataset，包含了5749个人的13233张面部图像。值得注意的是，1680个个体在数据集中有多张不同的照片。(2) Pins Face Recognition：该数据集包含从社交媒体平台Pinterest4收集的人脸图像，并裁剪用于人脸识别目的。它包括105位名人，共17534张面孔。(3) ORL人脸数据库，包含40个不同主题的10幅不同图像。在不同光照、面部表情(睁眼或闭眼,微笑或不微笑)、面部细节(有或无眼镜)等条件下采集图像。所有图像都是在黑暗的均匀背景下拍摄的，受试者直立，额状，允许轻微的侧面运动
测试集：(1) 该数据集由与训练集相同的分布构造而成，但在训练之前进行了分割。在我们的实验中，我们考虑了从一个镜头到五个镜头的10个类别。在每个类中，我们使用20张图像来获得平均认证分数。 (2) 我们选择了10人创建了一个由红外人脸图像组成的测试数据集。在黑暗环境下，使用基于红外夜视仪的家庭安全摄像头拍摄连续的视频记录。随后，我们使用OpenCV从视频中提取人脸图像，从而构建了这个测试数据集。

总结：本文提出了一种名为FewFaceNet的增量式少量样本学习技术，专门用于门禁场景下的人脸识别。该方法具有轻量级、增量式学习、兼容动态数据集、支持低光环境的优点。

Few-Shot Video Object Detection

小样本视频目标检测，2022发布在eccv

领域：视频目标检测

数据集：1、本文提出了一个数据集FSVOD-500，包含500个类别的平衡视频

2、FSYTV-40是一个针对视频中人物姿态识别的数据集，包含40个人物姿态样本。

总结：本文介绍了一种名为FSVOD的方法，用于解决少样本视频目标检测问题。还提出了一个大规模的视频数据集FSVOD-500，并提出了两个网络结构TPN和TMN+来提高视频目标检测的效果。实验结果表明，该方法比其他方法有更好的表现。

Few-shot Image Generation with Mixup-based Distance Learning

基于Mixup的距离学习的小样本图像生成，2022发布在eccv

领域：图像生成

数据集：这篇论文使用了多个数据集进行实验，包括Animal-Face Dog、Oxford f lowers，FFHQ-babies、face sketches，Obama and Grumpy Cat，anime face，Pokemon等。上述数据集包含100到8189个样本，因此我们通过随机采样10张图像来模拟小样本场景。此外，还使用了paintings of Amedeo Modigliani，landscape drawings，web-crawled images of Totoro数据集进行评估。所有图像均为256 × 256

总结：本文提出了一种新的方法来提高图像生成模型在少量样本下的性能。他们通过在生成器和判别器中引入距离学习正则化来增强模型的多样性和真实性，并在多个基准测试上进行了评估。结果表明，他们的方法可以显著提高现有模型的表现。

Learning Instance and Task-Aware Dynamic Kernels for Few-Shot Learning

面向小样本学习的学习实例和任务感知动态核，2022发布在eccv

领域：少样本学习

数据集：1、mini-ImageNet，包含100个类别的图像，每个类别有600张图像，分为64个训练，16个验证和20个测试类。

2、tiered-ImageNet，由34个类别608个类组成，分为20个类别351个类用于训练，6个类别97个类用于验证，8个类别160个类用于测试。

3、CUB，是一个鸟类识别数据集，由来自200种不同品种鸟类的11788张图像组成。其中数据集被分成100 / 50 / 50个品种，分别用于训练、验证和测试。

4、FC100，是一个自然图像分类数据集，包含100个类别的图像，每个类别包含600个样本。我们将数据集分为60 / 20 / 20个类，分别用于训练、验证和测试。

5、MS COCO and PASCAL VOC，在少样本检测中，其中来自MS COCO数据集的60个类别的图像用于训练，来自MS COCO和PASCAL VOC数据集之间的其余20个常见类别的图像用于测试。

总结：本文提出了一种新的动态卷积核学习方法，旨在提高少样本学习的性能。该方法通过学习任务和实例相关的动态卷积核来实现快速适应新任务的目标，并在多个基准数据集上取得了优异的表现。

Worst Case Matters for Few-Shot Recognition

最坏的情况对小样本识别很重要，2022发布在eccv

领域：小样本图像分类

数据集：1、mini-ImageNet，由从ImageNet数据集[ 27 ]中随机选择的100个类别组成，每个类别包含600张大小为84 × 84的图像。细分为64个基类，16个验证和20个新类别。

2、CUB-200-2011 (CUB)，由200个类( 11 ,788幅图像)组成，大小为84 × 84，分为100个基类、50个验证类和50个新类。

3、CIFAR-FS，是将CIFAR - 100 任意划分为64个基类、16个验证类和20个新类产生的。每类包含600幅大小为32 × 32像素的图像。

总结：本文提出在小样本图像分类中，最大化最坏情况准确率比最大化平均准确率更为重要。提出了两种策略稳定性正则化损失适应性校准机制来减少偏差。实验结果表明，这些策略显著提高了模型的平均和最坏情况准确率，并且优于当前最先进的方法。

Self-Promoted Supervision for Few-Shot Transformer

对少样本Transformer进行了自我提升监管，2022发布在eccv

领域：图像分类，少样本学习

数据集：1、miniImageNet，从ImageNet - 1k数据集中选择了100个不同的类别，每个类别包括600个样本。在这里，我们将其分为64 / 16 / 20类，分别用于训练集、验证集和测试集。

2、tieredImageNet，是ImageNet - 1k数据集的一个较大子集，共包含608个不同类别的779165张图像。具体来说，该数据集包括训练集351个类，验证集97个类和测试集160个类。

3、CIFAR-FS，是在CIFAR - 100数据集的基础上建立的，该数据集分为64、16和20类，分别用于训练、验证和测试。每个类别包含600张不同的图像。

总结：本文提出了一个名为Self-promoted sUpervisioN（SUN）的少样本训练框架，用于解决在vit上进行少样本学习时性能下降的问题。该方法通过预训练ViT并使用其生成每个位置特定的监督信息来加速token依赖关系的学习和提高对象定位和识别能力。实验结果表明，在不同数据集上，SUN相比于现有方法在准确率上有显著提升。

Adaptive Transformers for Robust Few-shot Cross-domain Face Anti-spoofing

面向鲁棒少样本跨域抗欺骗的自适应transform，2022发布在eccv

领域：跨域人脸识别

数据集：1、CASIA 2、Idiap Replay Attack 3、MSU-MFSD 4、Oulu-NPU

更大的数据集：5、CASIA-SURF 6、CASIA-CeFA 7、WMCA

总结：本文提出了一种基于vit的自适应模型用于跨域人脸防伪，提高了模型的泛化能力，可以在只有很少样本的情况下快速适应新领域，从而避免了过拟合的问题。实验结果表明，本文的方法在多个基准数据集上取得了最先进的性能。

HM: Hybrid Masking for Few-Shot Segmentation

Hm：用于少样本分割的混合掩模，2022发布在eccv

领域：语义分割

数据集：1、PASCAL-5，包含20个类别

2、COCO-20，包含80个类别

3、FSS-1000，包含1000个类别

总结：本文提出了一种新的方法——混合遮挡（Hybrid Masking），旨在解决现有特征遮挡技术无法保留细节信息的问题。该方法通过结合现有的特征遮挡技术和基本输入遮挡技术来提高特征提取的质量。实验结果表明，在三个公开数据集上，该方法比当前最佳方法表现更好。

Few-shot Class-incremental Learning for 3D Point Cloud Objects

3D点云对象的少样本类别增量学习，2022发布在eccv

领域：3D点云分类，少样本学习

数据集：其中1、2是合成数据集，用于训练基础类别的模型，3、4是真实世界扫描集，用于测试增量学习的效果

ModelNet：包含12个常见物体类别（如椅子、桌子等），每个类别有9,843个三维点云样本；
ShapeNet：包含55个常见物体类别（如飞机、汽车等），每个类别有5,984个三维点云样本；
ScanObjectNN：包含15个常见物体类别（如杯子、花瓶等），每个类别有2,000个三维点云样本；
CO3D：包含16个常见物体类别（如床、沙发等），每个类别有1,000个三维点云样本。

总结：本文提出了一种针对3D点云对象的增量学习方法，通过使用Microshape描述3D对象并将其与语言原型对齐来解决FSCIL中的遗忘和过拟合问题。该方法在多个实验中表现出较好的性能，并证明了其有效性。

Tree Structure-Aware Few-Shot Image Classification via Hierarchical Aggregation

基于分层聚合的树结构感知的少样本图像分类，2022发布在eccv

领域：图像分类

数据集：1、miniImageNet 2、tieredImageNet 3、CUB-200-2011 4、CIFAR-FS

总结：本文提出了一种名为Hierarchical Tree Structure-Aware（HTS）的方法，用于解决少样本图像分类问题。该方法通过学习预训练任务生成的特征表示，并利用树结构和门控选择聚合组件来适应新的类别。实验结果表明，该方法取得了新的最佳性能。

WaveGAN: Frequency-aware GAN for High-Fidelity Few-shot Image Generation

Wavegan：频率感知Gan用于高保真少样本图像生成，2022发布在eccv

领域：图像生成

数据集：1、Flower，包含102个类，其中85个类用于训练，17个类用于测试，每个类中有40张图片。

2、Animal Faces，包含149个类，其中119个类用于训练，30个类用于测试，每个类中有100张图片。

3、VGGFace，包含2354个类，其中1802个类用于训练，552个类用于测试，每个类中有100张图片。

总结：本文介绍了一种名为WaveGAN的生成对抗网络模型，用于解决小样本图像生成问题。通过对图像特征进行频率分析，并采用低频跳转连接和高频跳转连接的方式，提高了生成图像的质量和细节表现。实验结果表明，该方法在三个数据集上均取得了新的最佳效果。

Cross-Domain Cross-Set Few-Shot Learning via Learning Compact and Aligned Representations

基于学习紧凑和对齐表示的跨域交叉集小样本学习，2022发布在eccv

领域：跨域少样本学习，图像分类

数据集：1、DomainNet，包含了6个不同的领域，共计345个类别

2、Office-Home，包含了4个领域，共计65个类别

总结：本文提出了一种新的跨域跨集少样本学习方法（CDSC-FSL），旨在解决支持集和查询集之间的域差距问题。该方法通过学习紧凑且对齐的表示来同时处理域移位和少样本学习。实验结果表明，该方法在两个新构建的基准数据集上优于多个复杂的基线模型。

Learn-to-Decompose: Cascaded Decomposition Network for Cross-Domain Few-Shot Facial Expression Recognition

Learn-to-Decompose: 面向跨域少样本人脸表情识别的级联分解网络，2022发布在eccv

领域：面部表情识别

数据集：基本表情数据集1、CK+ 2、MMI 3、Oulu-CASIA 4、RAF-DB 5、SFEW进行训练

复合表情数据集1、CFEE 2、EmotioNet 3、RAF-DB进行测试

总结：本文提出了一种名为CDNet的新型网络结构，用于解决跨域少量样本面部表情识别任务。该网络通过分层分解机制学习到通用的表情特征，并采用部分正则化策略来缓解由于有限的基本类导致的过拟合问题。实验结果表明，CDNet在多个基准数据集上均取得了优于现有方法的表现。

Dense Cross-Query-and-Support Attention Weighted Mask Aggregation for Few-Shot Segmentation

密集交叉查询和支持注意力加权掩码聚合的小样本分割，2022发布在eccv

领域：语义分割

数据集：1、PASCAL-5，包含5个类别的图像，每个类别有50张训练图像和10张测试图像

2、COCO-20，包含20个类别的图像，每个类别有100张训练图像和50张测试图像

3、FSS-1000，包含1000个类别的图像，每个类别只有10张训练图像和5张测试图像

总结：本文提出了一种新的少样本语义分割的方法——Dense Cross-Query-and-Support Attention Weighted Mask Aggregation（DCAMA），通过多级像素级别的交叉注意力加权掩模聚合来充分利用支持图像中的信息，实现了高效准确的图像分割。实验结果表明，该方法在标准FSS基准测试上取得了显著的性能提升。

Self-Supervision Can Be a Good Few-Shot Learner

自我监督可以成为一个很好的"少样本学习者"，2022发布在eccv

领域：图像分类

数据集：mini-ImageNet和tiered-ImageNet

总结：本文提出了一种有效的无标签少样本学习方法，即通过最大化实例与其表示之间的互信息来进行自我监督预训练，从而捕捉数据的内在结构。实验结果表明，在适当的条件下，该方法可以优于传统的有监督预训练方法，并且在各种基准测试上取得了与最先进的小样本学习方法相当的性能。

Inductive and Transductive Few-Shot Video Classification via Appearance and Temporal Alignments

基于外观和时间对齐的归纳式和直推式少样本视频分类，2022发布在eccv

领域：视频分类

数据集：1、Kinetics，是一个大规模的人类动作识别数据集，包含约600个类别和400万帧图像。

2、Something-Something V2，是另一个视频分类数据集，共有174个类别和近10万个视频片段。

总结：这篇论文提出了一种用于少样本视频分类的新方法，通过外观和时间相似性来匹配查询视频和支持视频，并在多个步骤中利用这些相似性得分。实验结果显示，该方法在具有时间顺序敏感性的数据集上表现良好，并且比以前的方法取得了类似甚至更好的结果。

Few-shot Object Counting and Detection

少样本目标计数与检测，2022发布在eccv

领域：目标计数与检测

数据集：1、FSCD-147，包含了6135张图片，涵盖了147个物体类别。

2、FSCD-LVIS，包含6196幅图像和372类，从LVIS数据集中提取

总结：本文介绍了一种新的任务——少样本对象计数和检测，并提出了一种名为Counting-DETR的新方法来解决该任务。该方法通过生成伪真实框来进行两阶段训练，并且能够预测目标类别的数量和边界框位置。此外，为了验证该方法的有效性，本文还介绍了两个新的数据集：FSCD-147和FSCD-LVIS。实验结果表明，该方法比其他基准方法在计数和检测指标上表现更好。