《昇思25天学习打卡营第3天|数据集的基本操作》

曲小歪

已于 2024-06-28 22:15:03 修改

阅读量401

点赞数 10

文章标签：人工智能学习

于 2024-06-28 22:14:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58790800/article/details/140053901

版权

数据预处理步骤之一——数据集
- 数据集加载
  - ```
  from download import download
  		  
  url = "https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/" \  "notebook/datasets/MNIST_Data.zip"
  path = download(url, "./", kind="zip", replace=True)
```
- 数据集常见操作
  - 数据集加载后，一般以迭代方式获取数据
  - 访问的数据类型默认为Tensor；若设置output_numpy=True，访问的数w据类型为Numpy。
  - shuffle
    - 数据集随机shuffle可以消除数据排列造成的分布不均问题。这是一个打乱顺序的操作
    - train_dataset = train_dataset.shuffle(buffer_size=64)
      visualize(train_dataset)
  - map
    - map操作是数据预处理的关键操作，可以针对数据集指定列（column）添加数据变换（Transforms），将数据变换应用于该列数据的每个元素，并返回包含变换后元素的新数据集。
    - map算是一个对列数据整体操作的一个函数（算子）
  - batch
    - 可以看作把数据聚集拆分成固定大小的块的操作
- 自定义数据集
  - 可随机访问数据集
    - 是实现了__getitem__和__len__方法的数据集。表示可以通过索引/键直接访问对应位置的数据样本。
    - 例如，当使用dataset[idx]访问这样的数据集时，可以读取dataset内容中第idx个样本或标签。
  - 可迭代的数据集
    - 是实现了__iter__和__next__方法的数据集，表示可以通过迭代的方式逐步获取数据样本。这种类型的数据集特别适用于随机访问成本太高或者不可行的情况。
    - 例如，当使用iter(dataset)的形式访问数据集时，可以读取从数据库、远程服务器返回的数据流。
  - 生成器
    - 生成器也属于可迭代的数据集类型，其直接依赖Python的生成器类型generator返回数据，直至生成器抛出StopIteration异常。

关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。