昇思25天学习打卡营第4天|数据变换Transforms

小九格物

已于 2024-06-22 23:23:35 修改

阅读量555

点赞数 25

文章标签：学习人工智能深度学习

于 2024-06-22 23:20:22 首次发布

本文链接：https://blog.csdn.net/shugenlee/article/details/139889867

版权

学习内容复盘

1.1 数据变换

什么是数据变换、为何要数据变换

通常情况下，直接加载的原始数据并不能直接送入神经网络进行训练，此时我们需要对其进行数据预处理。MindSpore提供不同种类的数据变换（Transforms），配合数据处理Pipeline来实现数据预处理。所有的Transforms均可通过`map`方法传入，实现对指定数据列的处理。

mindspore.dataset提供了面向图像、文本、音频等不同数据类型的Transforms，同时也支持使用Lambda函数。

1.Common Transforms

mindspore.dataset.transforms模块支持一系列通用Transforms。这里我们以Compose为例，介绍其使用方式。

Compose：Compose接收一个数据增强操作序列，然后将其组合成单个数据增强操作。我们仍基于Mnist数据集呈现Transforms的应用效果。

2.Vision Transforms

mindspore.dataset.vision模块提供一系列针对图像数据的Transforms。在Mnist数据处理过程中，使用了Rescale、Normalize和HWC2CHW变换。下面对其进行详述。

Rescale：Rescale变换用于调整图像像素值的大小，包括两个参数：

rescale：缩放因子。
shift：平移因子。

图像的每个像素将根据这两个参数进行调整，输出的像素值为 𝑜𝑢𝑡𝑝𝑢𝑡𝑖=𝑖𝑛𝑝𝑢𝑡𝑖∗𝑟𝑒𝑠𝑐𝑎𝑙𝑒+𝑠ℎ𝑖𝑓𝑡。

Normalize：Normalize变换用于对输入图像的归一化，包括三个参数：

mean：图像每个通道的均值。
std：图像每个通道的标准差。
is_hwc：bool值，输入图像的格式。True为(height, width, channel)，False为(channel, height, width)。

图像的每个通道将根据mean和std进行调整，计算公式为

，其中 𝑐代表通道索引。

HWC2CHW：HWC2CHW变换用于转换图像格式。在不同的硬件设备中可能会对(height, width, channel)或(channel, height, width)两种不同格式有针对性优化。MindSpore设置HWC为默认图像格式，在有CHW格式需求时，可使用该变换进行处理。

3.Text Transforms

mindspore.dataset.text模块提供一系列针对文本数据的Transforms。与图像数据不同，文本数据需要有分词（Tokenize）、构建词表、Token转Index等操作。

PythonTokenizer：分词（Tokenize）操作是文本数据的基础处理方法，MindSpore提供多种不同的Tokenizer。这里我们选择基础的PythonTokenizer举例，此Tokenizer允许用户自由实现分词策略。随后我们利用map操作将此分词器应用到输入的文本中，对其进行分词。

Lookup：Lookup为词表映射变换，用来将Token转换为Index。在使用Lookup前，需要构造词表，一般可以加载已有的词表，或使用Vocab生成词表。这里我们选择使用Vocab.from_dataset方法从数据集中生成词表。

4.Lambda Transforms

Lambda函数是一种不需要名字、由一个单独表达式组成的匿名函数，表达式会在调用时被求值。Lambda Transforms可以加载任意定义的Lambda函数，提供足够的灵活度。

2.平台实验结果

小九格物

关注

25
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
昇思25天学习打卡营第4天|数据变换Transforms

MindSpore提供不同种类的数据变换（Transforms），配合数据处理Pipeline来实现数据预处理。随后我们利用map操作将此分词器应用到输入的文本中，对其进行分词。在使用Lookup前，需要构造词表，一般可以加载已有的词表，或使用Vocab生成词表。mindspore.dataset提供了面向图像、文本、音频等不同数据类型的Transforms，同时也支持使用Lambda函数。图像的每个像素将根据这两个参数进行调整，输出的像素值为 𝑜𝑢𝑡𝑝𝑢𝑡𝑖=𝑖𝑛𝑝𝑢𝑡𝑖∗𝑟𝑒𝑠𝑐𝑎𝑙𝑒+𝑠ℎ𝑖𝑓𝑡。
复制链接

扫一扫