迁移学习(一):相关数据集介绍

https://github.com/jindongwang/transferlearning/blob/master/data/dataset.md

迁移学习常用的数据集

数据集Office-31,Office+Caltech,VLSC都可以在该项目下找到)

一. Office-31

(Object recognition数据集)

包含了31类的数据,全部是Office的数据,数据来源为A(Amazon), W(Webcam) 和D(DSLR),BenchMark如下图所示:

二.Office+Caltech

(Object recognition数据集)

包含有2533个样本,包含(C A W D)四种数据库的数据, C(Caltech), A(Amazon), W(Webcam) 和D(DSLR),其中C有1123个,A有958个,W有295个,D有157个,数据集提供了SURF特征和DeCAF(A Deep Convolutional Activation Featurefor Generic Visual Recognition)特征

同一类物体在不同数据集中的具体实例

三.MNIST+USPS

手写体数字识别数据,随机从Mnist数据和USPS数据中选取的。Mnist每张图为28*28大小,一共70000张图片,10类数字。Usps数据集图片大小为16*16,共20000张图,10类数字,数据的下载网站为:sam roweis : data

BenchMark

四.Animals-with-Attributes

下载网址Animals with Attributes 2,包含了37322个图片,有50种动物,同时提供了样本预先提取好的特征以及属性列表,该数据集可用于迁移学习和zero-shot,使用的时候需要引用https://doi.org/10.1109/TPAMI.2018.2857768,Zero-Shot Learning—A Comprehensive Evaluation of the Good, the Bad and the Ugly

Benchmark以及示意图

五. Office-Home

2017CVPR发布的新的数据集,包含65种物体,主要面向domain adaptation领域的研究,网站地址:Page Redirection,包含有Artistic images, Clip Art, Product images and Real-World images

六.VisDA

VisDA: The Visual Domain Adaptation Challenge(2017),VisDA2017: Visual Domain Adaptation Challenge面向视觉领域适应任务,包括了目标分类和目标的分割,该比赛已经比了好几届了,目前2020年的任务也出来了,VisDA2020: Visual Domain Adaptation Challenge,不过今年的任务主要关注的是行人重识别。

1)分类任务

2)分割任务

### 小样本迁移学习数据集 为了应对新场景并实现机器学习的大规模应用,迁移学习能够帮助处理那些标注数据稀缺的任务和领域[^1]。针对小样本情况下的迁移学习,特定的数据集设计用于验证不同迁移策略的有效性和鲁棒性。 #### 常见的小样本迁移学习数据集 - **Omniglot Dataset** Omniglot 是个多字符识别数据集,包含了来自50种不同字母表中的超过1600个手写字符。每个类只有少量样例(通常每类20张图像),非常适合测试少样本分类方法的效果。 - **miniImageNet** miniImageNet 数据集是从原始 ImageNet 中抽取的个子集,包含100个类别,每个类别有600幅图片。这个数据集被广泛应用于评估各种元学习算法以及小样本学习技术的表现。 - **CIFAR-FS 和 FC100** CIFAR-FS 及其变体 FC100 都基于流行的 CIFAR-100 图像集合构建而成。它们各自提供了更细粒度的类别划分,并且特别适合于研究者们探索如何利用有限数量的例子来进行有效的特征提取与泛化能力提升。 - **tieredImageNet** tieredImageNet 进步扩展了 miniImageNet 的概念,在保持原有结构的基础上增加了更多层次化的类别关系。这使得它成为了个更加复杂但也更具挑战性的平台,用来检验跨多个抽象级别的知识转移效率。 这些数据集不仅限于计算机视觉任务;实际上,任何具有足够多样性和适当大小限制的真实世界问题都可以作为潜在的研究对象。例如,在自然语言处理方面也有类似的资源可供选择,比如 FewRel 或 TACRED 等关系抽取任务专用的小样本数据集。 ```python import tensorflow_datasets as tfds # 加载 Omniglot 数据集 dataset = tfds.load('omniglot', split='train') for example in dataset.take(1): # 打印第个样本的信息 print(example) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值