昇思25天学习打卡营第2天|数据集 Dataset

        MindSpore是一个提供高性能数据处理引擎的深度学习框架。在MindSpore中,数据集(Dataset)和数据变换(Transforms)模块用于高效的数据预处理。数据集是Pipeline的起始,用于加载原始数据。MindSpore提供了内置的文本、图像、音频等数据集加载接口,并支持自定义数据集加载接口。此外,MindSpore还提供了大量的预加载数据集,可以使用API一键下载和使用。

        数据集加载后,通常以迭代方式获取数据并送入神经网络进行训练。MindSpore提供了create_tuple_iteratorcreate_dict_iterator接口用于创建数据迭代器,通过迭代访问数据。数据的访问类型默认为Tensor,可以设置output_numpy=True以访问Numpy类型的数据。

        数据预处理中的关键操作是map操作,它可以针对数据集的特定列(column)添加数据变换(Transforms),对每个元素应用变换,并返回包含变换后元素的新数据集。MindSpore的mindspore.dataset模块提供了常用的公开数据集加载API和标准格式数据集加载API。

        对于MindSpore暂不支持直接加载的数据集,可以通过构造自定义数据加载类或自定义数据集生成函数来生成数据集,然后使用GeneratorDataset接口加载自定义方式的数据集GeneratorDataset支持可随机访问数据集对象、可迭代数据集对象和生成器构造的自定义数据集。可随机访问数据集是实现了__getitem____len__方法的数据集,可以通过索引/键直接访问对应位置的数据样本。可迭代数据集是实现了__iter____next__方法的数据集,可以通过迭代的方式逐步获取数据样本。生成器是一种基于Python生成器类型的数据集,通过生成器返回数据,直到生成器抛出StopIteration异常。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值