webdataset库

WebDataset库提供简单的方法处理大规模数据集,无需预先解压,直接在数百GPU上训练,通过AIStore实现线性扩展。数据以档案格式存储,包含元数据,支持大型顺序读取,提高硬盘I/O性能。它可以与PyTorch无缝集成,通过流畅API构建处理管道,实现在云存储桶上的直接训练。
摘要由CSDN通过智能技术生成
WEBDATASET库

特点:

  • 使用简单,可以在数百个GPU上进行训练,极大提高速度并且可以将数据存储到本地磁盘中。
  • 简化大型数据集的管理。无需在训练之前解压数据集,可以简化研究数据的分发和使用。

WebDataset的好处:

  • AIStore可以轻松地作为K8s容器进行部署,并提供线性可扩展性,并且网络和I / O带宽的利用率接近100%。适用于petascale深度学习。
  • WebDataset深度学习作业可以直接针对存储在云存储桶中的数据集进行训练;无需批量插件。本地作业和云作业的工作方式相同。
  • WebDataset的大型顺序读取可提高现有分布式存储的性能。
  • WebDatasets可以存储在现有的Web服务器和Web缓存上,并且可以由学生直接通过URL访问
  • 无需解压缩数据即可进行训练。与基于随机访问文件的数据集相比,硬盘驱动器的I / O性能提高了十倍。
  • 数据集以档案格式表示,并包含元数据,例如文件类型。数据以本机格式(JPEG,MP4等)压缩。数据管理,ETL样式的作业以及数据转换和I / O得以简化并易于并行化。
    代码例子:
import webdataset as wds
import ...

sharedurl = "/imagenet/imagenet-train-{000000..001281}.tar"

normalize = transforms.Normalize
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值