webdataset库

最新推荐文章于 2025-04-07 09:40:36 发布

学渣研升级

最新推荐文章于 2025-04-07 09:40:36 发布

阅读量2.6k

点赞数

分类专栏： Python 文章标签： python 深度学习

原文链接：https://pytorch.org/blog/efficient-pytorch-io-library-for-large-datasets-many-files-many-gpu

版权

Python 专栏收录该内容

1 篇文章

订阅专栏

WebDataset库提供简单的方法处理大规模数据集，无需预先解压，直接在数百GPU上训练，通过AIStore实现线性扩展。数据以档案格式存储，包含元数据，支持大型顺序读取，提高硬盘I/O性能。它可以与PyTorch无缝集成，通过流畅API构建处理管道，实现在云存储桶上的直接训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

WEBDATASET库

特点：

使用简单，可以在数百个GPU上进行训练，极大提高速度并且可以将数据存储到本地磁盘中。
简化大型数据集的管理。无需在训练之前解压数据集，可以简化研究数据的分发和使用。

WebDataset的好处：

AIStore可以轻松地作为K8s容器进行部署，并提供线性可扩展性，并且网络和I / O带宽的利用率接近100％。适用于petascale深度学习。
WebDataset深度学习作业可以直接针对存储在云存储桶中的数据集进行训练；无需批量插件。本地作业和云作业的工作方式相同。
WebDataset的大型顺序读取可提高现有分布式存储的性能。
WebDatasets可以存储在现有的Web服务器和Web缓存上，并且可以由学生直接通过URL访问
无需解压缩数据即可进行训练。与基于随机访问文件的数据集相比，硬盘驱动器的I / O性能提高了十倍。
数据集以档案格式表示，并包含元数据，例如文件类型。数据以本机格式（JPEG，MP4等）压缩。数据管理，ETL样式的作业以及数据转换和I / O得以简化并易于并行化。
代码例子：

import webdataset as wds
import ...

sharedurl = "/imagenet/imagenet-train-{000000..001281}.tar"

normalize = transforms.Normalize(
  mean=[0.485, 0.456, 0.406],
  std=[0.229, 0.224, 0.225])

preproc = transforms.Compose([
  transforms.RandomResizedCrop(224),
  transforms.RandomHorizontalFlip(),
  transforms.ToTensor(),
  normalize,
])

dataset = (
  wds.Dataset(sharedurl)
  .shuffle(1000)
  .decode("pil")
  .rename(image="jpg;png", data="json")
  .map_dict(image=preproc)
  .to_tuple("image", "data")
)

loader = torch.utils.data.DataLoader(dataset, batch_size=64, num_workers=8)

for inputs, targets in loader:
  ...

此代码与PyTorch Imagenet示例中的基于文件的I/O pipeline几乎相同：它创建预处理/增强pipeline，使用该pipeline和数据源位置实例化一个数据集，然后从该数据集构造一个DataLoader实例。

WebDataset对在内部构建处理管道的配置使用流畅的API。在此示例中，在不添加任何处理阶段的情况下，WebDataset与PyTorch DataLoader类一起使用，该类跨多个线程复制DataSet实例，并执行并行I/O和并行数据增加。

WebDataset实例本身只是将每个训练样本作为字典进行迭代：

# load from a web server using a separate client process
sharedurl = "pipe:curl -s http://server/imagenet/imagenet-train-{000000..001281}.tar"

dataset = wds.Dataset(sharedurl)

for sample in dataset:
  # sample["jpg"] contains the raw image data
  # sample["cls"] contains the class
  ...