【mindspore】mindspore基础操作

最新推荐文章于 2024-06-28 23:57:13 发布

冰镇果汁

最新推荐文章于 2024-06-28 23:57:13 发布

阅读量853

点赞数 1

文章标签： python numpy

本文链接：https://blog.csdn.net/guozhibin123/article/details/128192807

版权

mindspore基础操作

mindspore学习笔记，仅供参考和学习分享。

Tensor

具体参考：张量 Tensor

属性	描述
形状（shape）	Tensor的shape，是一个tuple
数据类型（dtype）	Tensor的dtype，是MindSpore的一个数据类型
单个元素大小（itemsize）	Tensor中每一个元素占用字节数，是一个整数
占用字节数量（nbytes）	Tensor占用的总字节数，是一个整数
维数（ndim）	Tensor的秩，也就是len(tensor.shape)，是一个整数
元素个数（size）	Tensor中所有元素的个数，是一个整数
每一维步长（strides）	Tensor每一维所需要的字节数，是一个tuple

普通算术运算有：加（+）、减（-）、乘（*）、除（/）、取模（%）、整除（//）。
mindspore.ops.concat：将给定维度上的一系列张量连接起来。输入为多个Tensor组合的元组或列表。
mindspore.ops.stack：在新的维度上将两个张量合并起来。输入为多个Tensor组合的元组或列表。

Dataset

从dataset中取一个数据

image, label = next(train_dataset.create_tuple_iterator())
print(image.shape)

具体流程是：先取数据集的迭代器（create_tuple_iterator()/create_dict_iterator()），然后使用next()取出迭代器指向的第一个数据。
打印出来的image格式为(28, 28, 1)，即高x宽x通道数（HWC）为28x28x1

显示图像

def visualize(dataset):
    figure = plt.figure(figsize=(4, 4))
    cols, rows = 3, 3

    for idx, (image, label) in enumerate(dataset.create_tuple_iterator()):
        figure.add_subplot(rows, cols, idx + 1)
        plt.title(int(label))
        plt.axis("off")
        plt.imshow(image.asnumpy().squeeze(), cmap="gray")
        if idx == cols * rows - 1:
            break
    plt.show()

需要关注的是image.asnumpy().squeeze()这个操作。

matplotlib的pyplot模块操作的是numpy类型数据，不支持直接操作tensor，所以需要先使用asnumpy()转换成numpy()类型数据；

matplotlib.pyplot.imshow()

imshow的第一个参数是图像数据。支持的输入格式为：
（M，N）：带有标量数据的图像。数据可视化使用色彩图。
（M，N，3）：具有RGB值的图像（float或uint8）。
（M，N，4）：具有RGBA值的图像（float或uint8），即包括透明度。
前两个维度（M，N）定义了行和列图片，即图片的高和宽；
而当前image的格式是（28， 28， 1），即灰度图的最低维占了一个维度存储数值，这个单独的维度需要被删除以满足imshow的格式。

numpy.suqeeze()

从数组的形状中删除单维度条目，即把shape中为1的维度去掉，将数值填充到其他维度。需要传入两个参数：输入的数组和指定删除的维度，此处不指定维度，默认删除所有单维度。

因此使用suqeeze()后，图像数据即可满足imshow()的格式要求。

数据集处理

map()

dataset.map()：针对数据集的指定列进行指定方式的数据变换。
查看数据集有哪些列：

print(dataset.get_col_names())

使用map()将image列的每个数据进行1/255的缩放，使用缩放接口：vision.Rescale()

train_dataset = train_dataset.map(operations=vision.Rescale(1.0 / 255, 0), input_columns='image')

batch

batch能将数据集打包输出，使用batch前每次取1个数据，使用batch后每次取一组数据。
经过batch后，取出来的数据增加一维，大小为batch_size。

image, label = next(train_dataset.create_tuple_iterator())
print(image.shape, image.dtype)

# batch批处理，batch后的数据增加一维，大小为batch_size
train_dataset = train_dataset.batch(batch_size=64)

image, label = next(train_dataset.create_tuple_iterator())
print(image.shape, image.dtype)

输出：

(28, 28, 1) Float32
(64, 28, 28, 1) Float32

自定义数据集

通过可迭代对象构造自定义数据集

1、构造一个类，该类支持迭代输出（支持__getitem__(self, index)方法和 len(self)方法）
2、实例化该类，然后使用GeneratorDataset()方法生成数据集
然后就得到了mindspore格式下的数据集了。

from mindspore.dataset import GeneratorDataset
import numpy as np

class BaseData:
    '''
    base data for dataset
    '''
    def __init__(self) -> None:
        self.data = np.random.rand(10)
        self.label = np.random.rand(10)

    def __getitem__(self, idx):
        return self.data[idx], self.label[idx]

    def __len__(self):
        return len(self.data)

base_data = BaseData()
my_dataset = GeneratorDataset(source=base_data, column_names=["data", "labels"])
# 打印一个数据
data, label = next(my_dataset.create_tuple_iterator())
print(data, label)