WEBDATASET库
特点:
- 使用简单,可以在数百个GPU上进行训练,极大提高速度并且可以将数据存储到本地磁盘中。
- 简化大型数据集的管理。无需在训练之前解压数据集,可以简化研究数据的分发和使用。
WebDataset的好处:
- AIStore可以轻松地作为K8s容器进行部署,并提供线性可扩展性,并且网络和I / O带宽的利用率接近100%。适用于petascale深度学习。
- WebDataset深度学习作业可以直接针对存储在云存储桶中的数据集进行训练;无需批量插件。本地作业和云作业的工作方式相同。
- WebDataset的大型顺序读取可提高现有分布式存储的性能。
- WebDatasets可以存储在现有的Web服务器和Web缓存上,并且可以由学生直接通过URL访问
- 无需解压缩数据即可进行训练。与基于随机访问文件的数据集相比,硬盘驱动器的I / O性能提高了十倍。
- 数据集以档案格式表示,并包含元数据,例如文件类型。数据以本机格式(JPEG,MP4等)压缩。数据管理,ETL样式的作业以及数据转换和I / O得以简化并易于并行化。
代码例子:
import webdataset as wds
import ...
sharedurl = "/imagenet/imagenet-train-{000000..001281}.tar"
normalize = transforms.Normalize