小样本学习数据集

文章转载自:https://blog.csdn.net/qq_36104364/article/details/107508592  

本文整理了近些年常用的小样本数据集,提供了数据集介绍,参考文献以及下载地址。我手头有资源的都已经上传至百度云盘,其他数据集也提供了官方的下载地址(有些可能需要翻墙)。最后还对各个数据集的情况做了一个简单的汇总。

1.Omniglot

  Omniglot数据集是由来自50种不同语言的1,623个手写字符构成的,每个字符都有20个不同的笔迹,这就构成了一个样本类别极多(1623种),但每种类别的样本数量极少(20个)的小样本手写字符数据集。使用中通常选择1200种字符作为训练集,剩余的423种字符作为验证集,并通过旋转90°,180°和270°进行数据集扩张,每张图片通过裁剪将尺寸统一为28*28。
  参考文献:Lake B, Salakhutdinov R, Gross J, et al. One shot learning of simple visual concepts[C]//Proceedings of the annual meeting of the cognitive science society. 2011, 33(33).
  下载地址:https://pan.baidu.com/s/19Y5aGfa-lNEZTDUeL1jP4g
  提取码:4y3z

2. miniImageNet

  miniImageNet数据集是从ImageNet数据集中选择了60,000张图像构成的,共100个类别,每个类别有600张图像,每幅图像的尺寸为84*84。使用中通常选择其中80个类别的图像作为训练集,剩余的20个类别的图像作为验证集。也有的文章将其分为基础集(Base Class,64种),验证集(Validation Class,16种)和新类别集(Novel Class,20种)。
  参考文献:Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning[C]//Advances in neural information processing systems. 2016: 3630-3638.
  下载地址:https://pan.baidu.com/s/1nqBSA1w5mQuhlrQeCY4HgA
  提取码:ajrz

3. tieredImageNet

  tieredImageNet数据集也是从ImageNet数据集中选取的,包含34个大类(Categories),每个大类有包含10-30个小类(Classes),每个类别有数量不等的多个图像样本,共计608个类别,779,165张图像(平均每个类别包含1281张图片)。34个大类可划分为训练集(20大类),验证集(6大类)和测试集(8大类),数据集划分情况如下图。
在这里插入图片描述

  参考文献:Ren M, Triantafillou E, Ravi S, et al. Meta-learning for semi-supervised few-shot classification[J]. arXiv preprint arXiv:1803.00676, 2018.
  下载地址:
https://drive.google.com/uc?export=download&confirm=_SLS&id=1g1aIDy2Ar_MViF2gDXFYDBTR-HYecV07

4. CUB-200

  CUB-200数据集全称为Caltech-UCSD Birds-200-2011数据集,是由加利福尼亚理工学院提供的鸟类数据库,共包含200种鸟类的11,788张图像。使用中通常划分为训练集(100种),验证集(50种)和测试集(50种),图像尺寸统一裁剪为84*84。
  参考文献:Catherine Wah, Steve Branson, Peter Welinder, Pietro Perona, and Serge Belongie. The caltech-ucsd birds- 200-2011 dataset. 2011.
  下载地址:https://pan.baidu.com/s/1DEmLxePvDuJX1goSzM9r6Q
  提取码:f1l5

5. CIFAR-FS

  CIFAR-FS数据集全称为CIFAR100 Few-Shots数据集,是来自于CIFAR 100数据集,共包含100类别,每个类别600张图像,合计60,000张图像。使用中通常划分为训练集(64种),验证集(16种)和测试集(20种),图像尺寸统一为32*32。
  参考文献:Bertinetto L, Henriques J F, Torr P H S, et al. Meta-learning with differentiable closed-form solvers[J]. arXiv preprint arXiv:1805.08136, 2018.
  下载地址:https://pan.baidu.com/s/1HqRUw3dmsMBInt_Fh3J_Uw
  提取码:ub38

6. ImageNet-1K Challenge

  ImageNet-1K Challenge数据集同样来自ImageNet数据集,是共包含1000类别。使用中通常划分为基础数据集(389个类别)和新样本数据集(611种)。
  参考文献:Hariharan B, Girshick R. Low-shot visual recognition by shrinking and hallucinating features[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 3018-3027.
  下载地址:http://www.image-net.org/

7. FC100

  FC100数据集全称是Few-shot CIFAR100数据集,与上文的CIFAR-FS数据集类似,同样来自CIFAR100数据集,共包含100类别,每个类别600张图像,合计60,000张图像。但不同之处在于  FC100不是按照类别(Class)进行划分的,而是按照超类(Superclass)进行划分的。共包含20个超类(60个类别),其中训练集12个超类,验证集4个超类(20个类别),测试集4个超类(20个类别)。
  参考文献:Oreshkin B, López P R, Lacoste A. Tadam: Task dependent adaptive metric for improved few-shot learning[C]//Advances in Neural Information Processing Systems. 2018: 721-731.
  下载地址:https://pan.baidu.com/s/1Wnlp1-obKsMLcHITYQ1CLg
  提取码:kcd6

                   小样本数据集汇总表

小样本数据集来源类别数图片数图片尺寸
Omniglot-162332,46028*28
miniImageNetImageNet10060,00084*84
tieredImageNetImageNet608779,16584*84
ImageNet 1KImageNet1000--
CIFAR-FSCIFAR 10010060,00032*32
FC100CIFAR 10010060,00032*32
CUB-200-20011,78884*84
8.FewRel数据集

  清华大学发布的关系抽取数据集RewRel,数据集包含了100个Relation,44800个Instance(句子),属于有监督数据集。

  下载地址:https://thunlp.github.io/fewrel.html

  GitHub地址:https://github.com/thunlp/FewRel

9.Stanford Dogs数据集

  下载地址:https://www.kesci.com/mw/dataset/5d22e94e688d36002c55105f

10.Stanford Cars数据集

  下载地址:http://ai.stanford.edu/~jkrause/cars/car_dataset.html

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值