PyTorch的torchvision中带有的计算机视觉数据集

目录

1.caltech101

2.caltech256

3.celeba

4.cifar10

5.cifar100

6.cityscapes

7.coco

8.emnist

9.FakeData

10.fashionMNIST

11.flickr8k

12.hmdb51

13.imagenet

14.kinetics400

15.kitti

16.kmnist

17.lsun

18.mnist

19.omniglot

20.phototour

21.place365

22.qmnist

23.sbd

24.sbu

25.semeion

26.stl10

27,svhn

28.ucf101

29.usps

30.voc

31.widerface


1.caltech101

torchvision.datasets.Caltech101(root: str, target_type: Union[List[str], str] = 'category', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

依赖scipy包导入标签数据

root:数据集存放的位置

target_type:string or list标签的类别

transform:对于图片的变换器

target_transform:对于标签的变换器

download:如果数据集在指定位置不存在是否进行下载

Caltech-101 Dataset 是由具有101 个类别的图片组成的数据集,它主要用于目标识别和图像分类。不同类别有 40 至 800 张图片,每张图片的大小在 300 * 200 像素,且数据集的发布者均已标注对应的目标以供使用。

2.caltech256

torchvision.datasets.Caltech256(root: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

Caltech-256 Dataset 是 Caltech-101 Dataset 的改进版,其主要有以下几点改动:

a)类别数量增加一倍以上;

b)任何类别中图像的最小数量从 31 增加到 80;

c)避免因图像旋转造成的伪影;

d)引入了一个新的更大的杂波类别来测试背景拒绝。

该数据集涵盖 256 个类别,共计 20607 张图片

3.celeba

torchvision.datasets.CelebA(root: str, split: str = 'train', target_type: Union[List[str], str] = 'attr', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

split:train,valid,test,all选择使用的数据集部分

CelebFaces(CelebA)Dataset 是一个大型人脸属性数据集,拥有超过 200k 的名人图像,其中每张图像由 40 个属性注释,该数据集中的图像覆盖了大量的姿势和背景,其中 CelebA 的注释包括 10,177 个身份,202,599 个面部图像和 5 个地标位置。

4.cifar10

torchvision.datasets.CIFAR10(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

CIFAR-10 Dataset 是用于机器视觉领域的图像分类数据集,它有飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车共计 10 个类别的60000 张彩色图像,尺寸均为 32*32。

5.cifar100

torchvision.datasets.CIFAR100(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

CIFAR-100 Dataset 是用于机器视觉领域的图像分类数据集,拥有 20 个大类,每个大类中又分为小类,共计100 个小类,其中每个小类包含 600 张图像(500 张训练图像和 100 张测试图像),并且每张图像均有一个小类别标签和一个大类别标签。

6.cityscapes

依赖Cityscape包

torchvision.datasets.Cityscapes(root: str, split: str = 'train', mode: str = 'fine', target_type: Union[List[str], str] = 'instance', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None)

Cityscapes 数据集包含 50 个不同城市街景中记录的视频序列,其包含 20000 个弱注释帧和 5000 帧的高质量像素级注释。

该数据集专注于对城市街景的语义理解,旨在将评估视觉算法用于语义城市场景理解中,该数据集的应用有以下两点:

  • 像素级和实例级语义标签;

  • 大量(弱)注释数据的研究。

7.coco

依赖COCO包

torchvision.datasets.CocoCaptions(root: str, annFile: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None)

annfile:json标注文件

torchvision.datasets.CocoDetection(root: str, annFile: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None)

COCO 是一个大型图像数据集,其被用于机器视觉领域的目标检测与分割、人物关键点检测、填充分割与字幕生成。该数据集以场景理解为主,图像中的目标通过精确的分割进行位置标定。

该数据集具有目标分割、情景感知和超像素分割,包含 33 万张图像、150 万目标实例、80 个目标类、91 个物品类以及 25 万关键点人物。

8.emnist

torchvision.datasets.EMNIST(root: str, split: str, **kwargs: Any)

详细介绍

EMNIST数据集简介_Chris_zhangrx的博客-CSDN博客​blog.csdn.net

9.FakeData

torchvision.datasets.FakeData(size: int = 1000, image_size: Tuple[int, int, int] = (3, 224, 224), num_classes: int = 10, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, random_offset: int = 0)

根据参数配置生成随机的PIL图像

size:要生成的数据集大小

iamge_size:数据集中图片的大小

num_class:生成的数据集的分类数

10.fashionMNIST

torchvision.datasets.FashionMNIST(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

10种不同的衣服,灰度图,28*28

11.flickr8k

torchvision.datasets.Flickr8k(root: str, ann_file: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None)

数据集包含8,000张图像,每张图像都与五个不同的标题配对,这些标题提供了对图片中物体和事件的内容描述

torchvision.datasets.Flickr30k(root: str, ann_file: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None)

12.hmdb51

torchvision.datasets.HMDB51(root, annotation_path, frames_per_clip, step_between_clips=1, frame_rate=None, fold=1, train=True, transform=None, _precomputed_metadata=None, num_workers=1, _video_width=0, _video_height=0, _video_min_dimension=0, _audio_samples=0)

动作识别视频数据集

13.imagenet

torchvision.datasets.ImageNet(root: str, split: str = 'train', download: Optional[str] = None, **kwargs: Any)

这个应该都知道吧

14.kinetics400

torchvision.datasets.Kinetics400(root, frames_per_clip, step_between_clips=1, frame_rate=None, extensions=('avi', ), transform=None, _precomputed_metadata=None, num_workers=1, _video_width=0, _video_height=0, _video_min_dimension=0, _audio_samples=0, _audio_channels=0)

动作识别视频数据集

15.kitti

torchvision.datasets.Kitti(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None, download: bool = False)

KITTI 是一套计算机视觉算法评测数据集,其主要用于自动驾驶场景下的相关测试,评测种类涵盖立体图像、光流、视觉测距、3D 物体检测和 3D 追踪等。KITTI 包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像有最多 15 辆车和 30 个行人,并且拥有不同程度的遮挡和截断。

该数据集由 389 对立体图像和光流图、39.2km 视觉测距序列以及超过 200k 个 3D 标注物体图像组成,并以 10Hz 采样同步,其中原始数据集被分为「Road」、「City」、「Residential」、「Campus」和「Person」五类,而 3D 物体检测则分为 car、van、truck、pedestrian、 pedestrian(sitting)、cyclist、tram 以及 misc。

16.kmnist

torchvision.datasets.KMNIST(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

介绍

机器学习数据集篇--KMNIST数据集_PRIS-SCMonkey的博客-CSDN博客​blog.csdn.net

古日文数据集

17.lsun

torchvision.datasets.LSUN(root: str, classes: Union[str, List[str]] = 'train', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None)

LSUN Dataset 是一个大规模图像数据集,包含 10 个场景类别和 20 个对象类别,共计约 100 万张标记图像。

18.mnist

torchvision.datasets.MNIST(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

这个应该都知道,计算机视觉领域的Hello word

19.omniglot

torchvision.datasets.Omniglot(root: str, background: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

手写字符识别,1623个类别,每个类别20张图片

20.phototour

torchvision.datasets.PhotoTour(root: str, name: str, train: bool = True, transform: Optional[Callable] = None, download: bool = False)

旅游照片数据集

21.place365

torchvision.datasets.Places365(root: str, split: str = 'train-standard', small: bool = False, download: bool = False, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, loader: Callable[[str], Any] = <function default_loader>)

Place365-Standard数据集由 MIT 发布,帮助场景分类的数据集。该数据集包括 180 万张训练照片来自于 365 类场景。

22.qmnist

torchvision.datasets.QMNIST(root: str, what: Optional[str] = None, compat: bool = True, train: bool = True, **kwargs: Any)

23.sbd

torchvision.datasets.SBDataset(root: str, image_set: str = 'train', mode: str = 'boundaries', download: bool = False, transforms: Optional[Callable] = None)

voc中带有标记的11355张数据集

24.sbu

torchvision.datasets.SBU(root: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = True)

25.semeion

torchvision.datasets.SEMEION(root: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = True)

26.stl10

torchvision.datasets.STL10(root: str, split: str = 'train', folds: Optional[int] = None, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

27,svhn

torchvision.datasets.SVHN(root: str, split: str = 'train', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

28.ucf101

torchvision.datasets.UCF101(root, annotation_path, frames_per_clip, step_between_clips=1, frame_rate=None, fold=1, train=True, transform=None, _precomputed_metadata=None, num_workers=1, _video_width=0, _video_height=0, _video_min_dimension=0, _audio_samples=0)

29.usps

torchvision.datasets.USPS(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

30.voc

torchvision.datasets.VOCSegmentation(root: str, year: str = '2012', image_set: str = 'train', download: bool = False, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None) torchvision.datasets.VOCDetection(root: str, year: str = '2012', image_set: str = 'train', download: bool = False, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None)

voc数据集

31.widerface

torchvision.datasets.WIDERFace(root: str, split: str = 'train', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

 

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_Old_Summer

感谢老板!!!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值