PyTorch（一） torchvision（部分）理解

最新推荐文章于 2024-05-04 11:15:00 发布

West_East

最新推荐文章于 2024-05-04 11:15:00 发布

阅读量352

点赞数

文章标签： pytorch 深度学习

本文链接：https://blog.csdn.net/West_East/article/details/120268544

版权

torchvision

torchvision作用：torchvision包包含了目前流行的数据集，模型结构，和常用的图片转换工具。

torchvision.datasets包含如下的数据集（其中ImageFolder不是数据集）:

torchvision.transforms作用：是对图片（PIL.Image类型）进行变换，即数据增强。
torchvision.transforms.Compose()函数可以将不同的变换（transform）组合起来，形成transforms

裁剪——Crop	功能
中心裁剪：transforms.CenterCrop(size) size可以为整数数或者一个tuple	依据给定的size从中心裁剪
随机裁剪：transforms.RandomCrop(size, padding=0)	依据给定的size随机裁剪
随机长宽比裁剪: transforms.RandomResizedCrop(size)	随机大小，随机长宽比裁剪原始图片，最后将图片resize到设定好的size
上下左右中心裁剪: transforms.FiveCrop(size)	对图片进行上下左右以及中心裁剪，获得5张图片，返回一个4D-tensor
上下左右中心裁剪后翻转: transforms.TenCrop(size, vertical_flip=False)	对图片进行上下左右以及中心裁剪，然后全部翻转（水平或者垂直），获得10张图片，返回一个4D-tensor

翻转和旋转——Flip and Rotation	功能	参数
依概率P水平翻转:transforms.RandomHorizontalFlip§	依据概率p对PIL图片进行水平翻转
依概率P垂直翻转:transforms.RandomVerticalFlip§	依据概率p对PIL图片进行垂直翻转
随机翻转: transforms.RandomRotation(degrees, resample=False, expand=False, center=None)	依degrees随机旋转一定角度	1、degress- (sequence or float or int) ，若为单个数，如 30，则表示在（-30，+30）之间随机旋转若为sequence，如(30，60)，则表示在30-60度之间随机旋转

图像变换	功能	参数
resize:transforms.Resize(size, interpolation=2)	重置图像分辨率
标准化:transform.Normalize(mean, std)	对数据按通道进行标准化，即先减均值，再除以标准差，注意是 hwc
转换为Tensor, 并归一化至[0, 1]:transforms.Tensor()	将PIL Image或者 ndarray 转换为tensor，并且归一化至[0-1];注意事项：归一化至[0-1]是直接除以255，若自己的ndarray数据尺度有变化，则需要自行修改
填充：transforms.Pad(padding, fill=0, padding_mode=‘constant’)	对图像进行填充
修改亮度、对比度和饱和度：transforms.ColorJitter(brightness=0, contrast=0, saturation=0, hue=0)	修改修改亮度、对比度和饱和度
转灰度图：transforms.Grayscale(num_output_channels=1)	将图片转换为灰度图	um_output_channels- (int) ，当为1时，正常的灰度图，当为3时， 3 channel with r == g == b
线性变换：transforms.LinearTransformation(transformation_matrix)	对矩阵做线性变化，可用于白化处理
仿射变换：transforms.RandomAffine(degrees, translate=None, scale=None, shear=None, resample=False, fillcolor=0)
依概率p转为灰度图：transforms.RandomGrayscale§	依概率p将图片转换为灰度图，若通道数为3，则3 channel with r == g == b
将数据转换为PILImage：transforms.ToPILImage(mode=None)		mode- 为None时，为1通道， mode=3通道默认转换为RGB，4通道默认转换为RGBA

对transforms操作，使数据增强更灵活	功能
transforms.RandomChoice(transforms)	从给定的一系列transforms中选一个进行操作
transforms.RandomApply(transforms, p=0.5)	给一个transform加上概率，依概率进行操作
transforms.RandomOrder	将transforms中的操作随机打乱

关注