JFT 数据集

JFTGoogle内部的图像分类数据集,包含17000类共3.5亿幅图像)

JFT是用于大规模图像分类数据集的内部Google数据集。它包含超过3.5亿个高分辨率图像,并用17,000个类别中的标签注释

 

 

 

 

 

### 下载适用于 Vision Transformer (ViT) 的数据集 对于 Vision Transformer (ViT),通常使用的大型图像数据集包括 ImageNet 和 JFT-300M 数据集。这些数据集有助于 ViT 达到较好的性能,尤其是在大规模预训练阶段[^2]。 #### 使用 ImageNet 数据集 ImageNet 是一个广泛用于计算机视觉研究的数据集,包含超过 1400 万张标注过的高分辨率图像,分布在大约 21841 个类别中。为了获取该数据集: 1. 访问官方 ImageNet 网站并注册账号。 2. 登录后按照指示申请访问权限。 3. 完成审批流程后可下载所需子集,比如 ImageNet-21k 或者更常用的 ILSVRC-2012 版本。 #### 获取 JFT-300M 数据集 JFT-300M 是谷歌内部的一个非常庞大的多标签分类数据集,它含有约三亿条带有多达一万九千种不同标签的记录。不过需要注意的是,这个资源并不公开对外提供直接下载链接;而是通过特定的合作渠道或者竞赛活动来分发给研究人员使用。 除了上述两个经典的大规模通用图像库之外,还有其他几个适合 ViT 实验的小型替代方案,例如 CIFAR-10/100、MNIST 及 STL-10 等小型基准测试集合也可以用来验证算法的有效性和稳定性。这类较小尺寸的数据源更容易获得,并且能够快速迭代实验设置而不必担心计算成本过高问题。 ```python import torchvision.datasets as datasets from torchvision import transforms transform = transforms.Compose([ transforms.Resize((224, 224)), transforms.ToTensor(), ]) train_dataset = datasets.ImageFolder(root='path_to_train_data', transform=transform) test_dataset = datasets.ImageFolder(root='path_to_test_data', transform=transform) print(f'Training set contains {len(train_dataset)} samples.') print(f'Testing set contains {len(test_dataset)} samples.') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值