WEBDATASET库
特点:
- 使用简单,可以在数百个GPU上进行训练,极大提高速度并且可以将数据存储到本地磁盘中。
- 简化大型数据集的管理。无需在训练之前解压数据集,可以简化研究数据的分发和使用。
WebDataset的好处:
- AIStore可以轻松地作为K8s容器进行部署,并提供线性可扩展性,并且网络和I / O带宽的利用率接近100%。适用于petascale深度学习。
- WebDataset深度学习作业可以直接针对存储在云存储桶中的数据集进行训练;无需批量插件。本地作业和云作业的工作方式相同。
- WebDataset的大型顺序读取可提高现有分布式存储的性能。
- WebDatasets可以存储在现有的Web服务器和Web缓存上,并且可以由学生直接通过URL访问
- 无需解压缩数据即可进行训练。与基于随机访问文件的数据集相比,硬盘驱动器的I / O性能提高了十倍。
- 数据集以档案格式表示,并包含元数据,例如文件类型。数据以本机格式(JPEG,MP4等)压缩。数据管理,ETL样式的作业以及数据转换和I / O得以简化并易于并行化。
代码例子:
import webdataset as wds
import ...
sharedurl = "/imagenet/imagenet-train-{000000..001281}.tar"
normalize = transforms.Normalize(
mean=[0.485, 0.456, 0.406],
std=[0.229, 0.224, 0.225])
preproc = transforms.Compose([
transforms.RandomResizedCrop(224),
transforms.RandomHorizontalFlip(),
transforms.ToTensor(),
normalize,
])
dataset = (
wds.Dataset(sharedurl)
.shuffle(1000)
.decode("pil")
.rename(image="jpg;png", data="json")
.map_dict(image=preproc)
.to_tuple("image", "data")
)
loader = torch.utils.data.DataLoader(dataset, batch_size=64, num_workers=8)
for inputs, targets in loader:
...
此代码与PyTorch Imagenet示例中的基于文件的I/O pipeline几乎相同:它创建预处理/增强pipeline,使用该pipeline和数据源位置实例化一个数据集,然后从该数据集构造一个DataLoader实例。
WebDataset对在内部构建处理管道的配置使用流畅的API。在此示例中,在不添加任何处理阶段的情况下,WebDataset与PyTorch DataLoader类一起使用,该类跨多个线程复制DataSet实例,并执行并行I/O和并行数据增加。
WebDataset实例本身只是将每个训练样本作为字典进行迭代:
# load from a web server using a separate client process
sharedurl = "pipe:curl -s http://server/imagenet/imagenet-train-{000000..001281}.tar"
dataset = wds.Dataset(sharedurl)
for sample in dataset:
# sample["jpg"] contains the raw image data
# sample["cls"] contains the class
...