上一节了解了Dataset提到transform属性和target_transform属性,本节具体看看它的使用场景。
机器学习或深度学习算法一般对数据有比较严格的要求,而训练数据往往是不稳定的,会有各种变化,因此多数情况下都需要对训练数据进行"变形"才能喂给算法。
transform和target_transform属性既用来指定变形方法。
Transforms转换的用途
Dataset有两个参数——transform和target_transform,分别指定用于处理数据和标签的方法。
torchvision.transforms模块提供了几种常用的开箱即用的transforms转换函数。
这里的transforms与Transformer算法没什么关系。
例如,FashionMNIST数据集采用PIL图像格式,标签为整数。
训练前,需要将特征进行归一化,并将标签转为one-hot编码,这个需求可以使用ToTensor和Lambda实现。
import torch
from torchvision import datasets
from torchvision.transforms import ToTensor, Lambda
ds = datasets.FashionMNIST(
root="data",
train=True,
download=True,
transform=ToTensor(),
target_transform=Lambda(lambda y: torch.zeros(10, dtype=torch.float).scatter_(0, torch.tensor(y), value=1))
)
ToTensor
ToTensor方法将PIL图像或NumPy ndarray转换为FloatTensor类型,并在[0.,1.]范围内实现数据归一化。
Lambda
使用用户自定义的Lambda表达式将整数转换为一个one-hot张量。
首先创建一个长度为10,类型为torch.float的全0张量,并调用scatter_方法,用于在标签y给出的索引上分配赋值1,从而完成one-hot张量的构建。
总结
本节很简单,只需要知道两个Transforms转换有什么用途。
实际项目中,该方法几乎都需要自定义,使训练数据满足算法要求。