PyTorch的torchvision中带有的计算机视觉数据集

最新推荐文章于 2024-06-14 09:39:20 发布

_Old_Summer

最新推荐文章于 2024-06-14 09:39:20 发布

阅读量2.4k

点赞数 1

分类专栏：算法文章标签：计算机视觉 pytorch 深度学习

本文链接：https://blog.csdn.net/Talantfuck/article/details/124565872

版权

算法专栏收录该内容

19 篇文章 3 订阅

订阅专栏

1.caltech101

torchvision.datasets.Caltech101(root: str, target_type: Union[List[str], str] = 'category', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

依赖scipy包导入标签数据

root:数据集存放的位置

target_type:string or list标签的类别

transform:对于图片的变换器

target_transform:对于标签的变换器

download:如果数据集在指定位置不存在是否进行下载

Caltech-101 Dataset 是由具有101 个类别的图片组成的数据集，它主要用于目标识别和图像分类。不同类别有 40 至 800 张图片，每张图片的大小在 300 * 200 像素，且数据集的发布者均已标注对应的目标以供使用。

2.caltech256

torchvision.datasets.Caltech256(root: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

Caltech-256 Dataset 是 Caltech-101 Dataset 的改进版，其主要有以下几点改动：

a）类别数量增加一倍以上；

b）任何类别中图像的最小数量从 31 增加到 80；

c）避免因图像旋转造成的伪影；

d）引入了一个新的更大的杂波类别来测试背景拒绝。

该数据集涵盖 256 个类别，共计 20607 张图片

3.celeba

torchvision.datasets.CelebA(root: str, split: str = 'train', target_type: Union[List[str], str] = 'attr', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

split:train,valid,test,all选择使用的数据集部分

CelebFaces（CelebA）Dataset 是一个大型人脸属性数据集，拥有超过 200k 的名人图像，其中每张图像由 40 个属性注释，该数据集中的图像覆盖了大量的姿势和背景，其中 CelebA 的注释包括 10,177 个身份，202,599 个面部图像和 5 个地标位置。

4.cifar10

torchvision.datasets.CIFAR10(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

CIFAR-10 Dataset 是用于机器视觉领域的图像分类数据集，它有飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车共计 10 个类别的60000 张彩色图像，尺寸均为 32*32。

5.cifar100

torchvision.datasets.CIFAR100(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

CIFAR-100 Dataset 是用于机器视觉领域的图像分类数据集，拥有 20 个大类，每个大类中又分为小类，共计100 个小类，其中每个小类包含 600 张图像（500 张训练图像和 100 张测试图像），并且每张图像均有一个小类别标签和一个大类别标签。

6.cityscapes

依赖Cityscape包

torchvision.datasets.Cityscapes(root: str, split: str = 'train', mode: str = 'fine', target_type: Union[List[str], str] = 'instance', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None)

Cityscapes 数据集包含 50 个不同城市街景中记录的视频序列，其包含 20000 个弱注释帧和 5000 帧的高质量像素级注释。

该数据集专注于对城市街景的语义理解，旨在将评估视觉算法用于语义城市场景理解中，该数据集的应用有以下两点：

像素级和实例级语义标签;
大量（弱）注释数据的研究。

7.coco

依赖COCO包

torchvision.datasets.CocoCaptions(root: str, annFile: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None)

annfile:json标注文件

torchvision.datasets.CocoDetection(root: str, annFile: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None)

COCO 是一个大型图像数据集，其被用于机器视觉领域的目标检测与分割、人物关键点检测、填充分割与字幕生成。该数据集以场景理解为主，图像中的目标通过精确的分割进行位置标定。

该数据集具有目标分割、情景感知和超像素分割，包含 33 万张图像、150 万目标实例、80 个目标类、91 个物品类以及 25 万关键点人物。

8.emnist

torchvision.datasets.EMNIST(root: str, split: str, **kwargs: Any)

详细介绍

EMNIST数据集简介_Chris_zhangrx的博客-CSDN博客blog.csdn.net

9.FakeData

torchvision.datasets.FakeData(size: int = 1000, image_size: Tuple[int, int, int] = (3, 224, 224), num_classes: int = 10, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, random_offset: int = 0)

根据参数配置生成随机的PIL图像

size:要生成的数据集大小

iamge_size:数据集中图片的大小

num_class:生成的数据集的分类数

10.fashionMNIST

torchvision.datasets.FashionMNIST(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

10种不同的衣服，灰度图，28*28

11.flickr8k

torchvision.datasets.Flickr8k(root: str, ann_file: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None)

数据集包含8,000张图像，每张图像都与五个不同的标题配对，这些标题提供了对图片中物体和事件的内容描述

torchvision.datasets.Flickr30k(root: str, ann_file: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None)

12.hmdb51

torchvision.datasets.HMDB51(root, annotation_path, frames_per_clip, step_between_clips=1, frame_rate=None, fold=1, train=True, transform=None, _precomputed_metadata=None, num_workers=1, _video_width=0, _video_height=0, _video_min_dimension=0, _audio_samples=0)

动作识别视频数据集

13.imagenet

torchvision.datasets.ImageNet(root: str, split: str = 'train', download: Optional[str] = None, **kwargs: Any)

这个应该都知道吧

14.kinetics400

torchvision.datasets.Kinetics400(root, frames_per_clip, step_between_clips=1, frame_rate=None, extensions=('avi', ), transform=None, _precomputed_metadata=None, num_workers=1, _video_width=0, _video_height=0, _video_min_dimension=0, _audio_samples=0, _audio_channels=0)

动作识别视频数据集

15.kitti

torchvision.datasets.Kitti(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None, download: bool = False)

KITTI 是一套计算机视觉算法评测数据集，其主要用于自动驾驶场景下的相关测试，评测种类涵盖立体图像、光流、视觉测距、3D 物体检测和 3D 追踪等。KITTI 包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像有最多 15 辆车和 30 个行人，并且拥有不同程度的遮挡和截断。

该数据集由 389 对立体图像和光流图、39.2km 视觉测距序列以及超过 200k 个 3D 标注物体图像组成，并以 10Hz 采样同步，其中原始数据集被分为「Road」、「City」、「Residential」、「Campus」和「Person」五类，而 3D 物体检测则分为 car、van、truck、pedestrian、 pedestrian(sitting)、cyclist、tram 以及 misc。

16.kmnist

torchvision.datasets.KMNIST(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)

介绍

机器学习数据集篇--KMNIST数据集_PRIS-SCMonkey的博客-CSDN博客blog.csdn.net

古日文数据集

17.lsun

torchvision.datasets.LSUN(root: str, classes: Union[str, List[str]] = 'train', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None)

LSUN Dataset 是一个大规模图像数据集，包含 10 个场景类别和 20 个对象类别，共计约 100 万张标记图像。