%%capture captured_output
# 实验环境已经预装了mindspore==2.2.14,如需更换mindspore版本,可更改下面mindspore的版本号
!pip uninstall mindspore -y
!pip install -i https://pypi.mirrors.ustc.edu.cn/simple mindspore==2.2.14
import numpy as np
from mindspore.dataset import vision
from mindspore.dataset import MnistDataset, GeneratorDataset
import matplotlib.pyplot as plt
可以直接导入mindspore的dataset中的数据集,具体有哪些数据集,可以查阅官方文档。
# Download data from open datasets
from download import download
url = "https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/" \
"notebook/datasets/MNIST_Data.zip"
path = download(url, "./", kind="zip", replace=True)
train_dataset = MnistDataset("MNIST_Data/train", shuffle=False)
print(type(train_dataset))
通过连接下载mnist数据集后,调用MnistDataset进行加载,这样数据集就加载了好。在mindspore官网昇腾910的jupyternotebook下载他网站上的数据集的话,速度很快。
def visualize(dataset):
figure = plt.figure(figsize=(4, 4))
cols, rows = 3, 3
plt.subplots_adjust(wspace=0.5, hspace=0.5)
for idx, (image, label) in enumerate(dataset.create_tuple_iterator()):
figure.add_subplot(rows, cols, idx + 1)
plt.title(int(label))
plt.axis("off")
plt.imshow(image.asnumpy().squeeze(), cmap="gray")
if idx == cols * rows - 1:
break
plt.show()
对数据进行可视化展示
train_dataset = train_dataset.shuffle(buffer_size=64) # 打乱数据顺序
train_dataset = train_dataset.batch(batch_size=32) #批量
也可以自己定义数据集
# Random-accessible object as input source
class RandomAccessDataset:
def __init__(self):
self._data = np.ones((5, 2))
self._label = np.zeros((5, 1))
def __getitem__(self, index):
return self._data[index], self._label[index]
def __len__(self):
return len(self._data)
loader = RandomAccessDataset()
dataset = GeneratorDataset(source=loader, column_names=["data", "label"])
for data in dataset:
print(data)
基本上,如果要入门学习,就可以使用自带的数据集。如果要自己构建数据集,就自定义数据集,进行后续的训练和评估。
实现上主要通过mindspore.dataset的一些模块实现数据加载。