前言
如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。
表格数据
- Sklearn 提供了 13 个表格型数据,且数据处理接口统一;
- LIBSVM 提供了 131 个表格型数据,整体数据格式比较统一;
- UCI 提供了 565 个表格型数据,但未提供统一的数据集处理接口;
- 或许可使用该仓库的代码进行统一处理:ucimlrepo
- TABZILLA 提供了 36 个表格型数据,且提供了统一的数据读取接口;
- OpenML 提供了 5393 个表格型数据,且数据可按照下述代码统一处理:
import openml
openml.config.apikey = "your api key"
dataset_id = 43466
dataset = openml.datasets.get_dataset(dataset_id, download_all_files=False)
X, y, _, _ = dataset.get_data(target=dataset.default_target_attribute)
print(dataset.description)
print(X.shape, X.columns)
print(len(y), y.name)
下面给出部分分类任务下的表格数据集:
数据集 | 样本量 | 特征数 | 类别数 | 备注 |
---|---|---|---|---|
Statlog (Shuttle) | 58000 | 9 | 7 | 飞行日志 |
Covertype | 581012 | 54 | 7 | 森林覆盖类型 |
Recognition of Human Activities | 10929 | 561 | 12 | 人类活动类型识别 |
Gas Sensor | 13910 | 128 | 6 | 化学气体类型 |
Sensorless Drive Diagnosis | 58509 | 49 | 11 | 电流驱动信号 |
Crop Mapping | 325834 | 175 | 7 | 农田作物类型 |
Poker Hand | 1025010 | 10 | 10 | 识别手中的扑克 |
图像数据
- torchvision 提供了大量图像数据集,包括 37 个图像分类数据集;
- huggingface 包含大量图像数据集,其中图像分类至少有 636 个,并提供了统一的数据集调用接口;
- deeplake 提供了 1262 个图像数据集,有统一的数据集下载接口;
- UCI 中包含 4 个较小的图像数据集。
Domain Generalization
- PACS:4 个 domain,每个 domain 有 7 个类:
- Domains: Photo (1,670 images), Art Painting (2,048 images), Cartoon (2,344 images) and Sketch (3,929 images).
- DomainNet:6 个 domain,每个 domain 有 345 个类:
- Domains: clipart, real, sketch, infograph, paintings, quickdraw.
- Office-Home:4 个 domain,每个 domain 有 65 个类:
- Domains: Art, Clipart, Product, Real-World.