少样本学习(二):FSL任务资源清单

少样本学习问题(FSL)系列搁置的有点久了。趁着周六周末,更新两篇FSL问题的文章

基本概念回顾[1]

机器学习在数据密集型的应用中取得了极佳的效果,但在数据集很小的场景下,多数机器学习算法的效果会严重受限[2]。在计算机视觉、自然语言处理等大领域下,从深度学习最初大放异彩的图像分类、文本分类,到进一步的图像生成、文本关系预测,机器学习算法取得的成就大多建立在大量数据驱动的训练算法之上。然而,高质量的标注数据在大多数领域都是很难获得的,这限制了诸多机器学习算法在相应场景下的应用能力。

在这样的背景下,小样本学习(Few Shot Learning, FSL)的提出将解决数据集规模严重受限条件下的机器学习应用问题。小样本学习方法可以在利用先验知识的前提下,仅由极少量受监督的样本,使模型通过极少步的更新快速提升泛化性能,以应用在新的相关任务上[2]。近年来,小样本学习已经应用于计算机视觉、自然语言处理、人机交互、知识图谱乃至生物计算等领域的诸多应用中。

常用经典数据集

列表(只关注cv领域)

Omniglot (B. M. Lake et al., 2015), which is downloaded from
(omniglot/python at master · brendenlake/omniglot · GitHub)
Mini-ImageNet (O. Vinyals et al., 2016), which is downloaded from
(https://drive.google.com/file/d/1LLUjwSUpWGSWizl3JZxd08V30_dIaRBx/view)
Tiered-ImageNet (M. Ren et al., 2018), which is downloaded from
(https://drive.google.com/file/d/1fQ6lI5pCnOEt9MHWdqFN1cdSU2SbMKzx/view)
CIFAR-FS (L. Bertinetto et al., 2018), which is downloaded from
(https://drive.google.com/file/d/1nN1u2ZeD0L90uG5Y_Ml6uQR6z-o6aBLL/view)
FC100 (B. N. Oreshkin et al., 2018), which is downloaded from
(https://drive.google.com/file/d/18SPp-RLOL-nxxoHtkU8-n8OspDjMfhAH/view)
CUB-200 (W.-Y. Chen et al., 2019) , which is downloaded from
(https://drive.google.com/file/d/1EiKOk6LAqlYwDJzUQRDUjGMsvUGBT1U8/view)
Natural language processing, relation classification task datasets:
FewRel1.0 (Xu Han et al., 2018), which is downloaded from
(FewRel/data at master · thunlp/FewRel · GitHub)

使用[3]

1.Omniglo是一个手写数字识别数据集,不过和MNIST的画风想差的很大,且此数据集具有1623个类别,但每个类别只有20张图片,是FSL领域的经典数据集
2.miniImageNet数据集是google DeepMind团队Oriol Vinyals等人于2016年在ImageNet的基础上提取出得到的。miniImageNet包含100类共60000张彩色图片,其中每类有600个样本。
3.tieredImageNet与miniImagenet一样,它是ILSVRC-12的子集。但是,tieredImageNet代表了ILSVRC-12的更大子集(608个类,而miniImageNet则为100个类)。类似于将字符分组为字母的Omniglot一样,tieredImageNet将类别分为与ImageNet层次结构中较高级别的节点相对应的更广泛的类别。包含34个大类(Categories),每个大类有包含10-30个小类(Classes),每个类别有数量不等的多个图像样本,共计608个类别,779,165张图像(平均每个类别包含1281张图片)
tips:在之后的FSL任务中会逐渐发现,FSL问题有一个分支是通过扩展正确类别之外的类别所属数据的数据量来完成此项任务的。
4.CIFAR-FS数据集全称为CIFAR100 Few-Shots数据集,是来自于CIFAR 100数据集,共包含100类别,每个类别600张图像,合计60,000张图像。
5.FC100数据集全称是Few-shot CIFAR100数据集,与上文的CIFAR-FS数据集类似,同样来自CIFAR100数据集,共包含100类别,每个类别600张图像,合计60,000张图像。但不同之处在于 FC100不是按照类别(Class)进行划分的,而是按照超类(Superclass)进行划分的。共包含20个超类(60个类别),其中训练集12个超类,验证集4个超类(20个类别),测试集4个超类(20个类别)
6.CUB-200数据集全称为Caltech-UCSD Birds-200-2011数据集,是由加利福尼亚理工学院提供的鸟类数据库,共包含200种鸟类的11,788张图像(平均一个类别59张图片)

FSL开发工具

一次偶然的机会发现了PaddleFSL工具包[1],使用方法也在这个链接中
此外还有Torchmeta,Torchmeta是 PyTorch 中用于小样本(few-shot)学习和元学习(meta-learning)的扩展和数据加载器的工具

PaddleFSL:FSL-Mate/PaddleFSL at master · tata1661/FSL-Mate · GitHub
Torchmeta:https://github.com/emerald-ai/torchmetal
后者扩展性更好些,前者可能更易用些。

参考

[1] 样本量很少如何获得最佳的效果?最新小样本学习工具包来啦!
[2] Wang Y, Yao Q, Kwok J T, Ni L M. Generalizing from a few examples: A survey on few-shot learning[J]. ACM Computing Surveys (CSUR), 2020, 53(3): 1-34.
[3] 常用小样本数据集介绍与下载汇总 - 程序员大本营

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小白 AI 日记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值