@TOC
前言-为什么要做线性拉伸
近期在开展语义分割任务,用到的数据是经过SNAP预处理的Sentinel-1的SAR数据。工作需要将相关的Image和label送入模型,进行目标地物的分割。
这里用到的深度学习框架是pytorch,需要将影像数据转换为tensor后送入model。转换为tensor之前,需要对image和label的存储格式进行检查。为什么呢?这里就需要知道transforms.ToTensor对数据做了什么?
一、transforms.ToTensor
transforms.ToTensor会把一个取值范围是[0,255]的PIL.Image或者shape为(H,W,C)的numpy.ndarray,转换成形状为[C,H,W],取值范围是[0,1.0]的tensor。
需要注意,由于transforms.ToTensor最早适用于RGB三波段图像的处理,采用的存储是8位存储,所以这里简单使用了img/255的操作使图像取值范围保持在[0,1]。
而由于遥感影像有的是16位甚至32位存储,所以我们需要在image和label转换为tensor之前,保证image是8位存储,数值范围在[0,255]之间。这里采用的方法是线性拉伸
二、线性拉伸
对数据进行信息查看
可以看到Image的取值范围是[-39.9612,29.688],我们查看一下数值的分布。
可以看到,Image数值似乎是个双峰的正态分布,先不管他。由于影像中数值是最大最小值的像素数量非常少,我们就不能简单的用最大最小值作为0和255的对应值,否则可能会造成数据偏移。这就需要找到一个相对合理的最大最小值作为0和255的对应值。
这里用到一个numpy函数来判断怎么找合适的比例对影像数值进行“掐头去尾”,从而找到0和255合理的对应值。函数为np.percentile(),它将像素从小到大排列,通过np.percentile(data,percentage)查看当前的数值是多少。比如np.percentile(Image,0.05)就是查询这幅影像排列在0.05%位置处的像素数值,这幅影像0.05和99.95处大概是-34和-6。
附上代码如下,代码来源于师弟WZQ。
import numpy as np
import gdal
# 读取tif数据集
def readTif(fileName, xoff=0, yoff=0, data_width=0, data_height=0):
dataset = gdal.Open(fileName)
if dataset == None:
print(fileName + "文件无法打开")
# 栅格矩阵的列数
width = dataset.RasterXSize
# 栅格矩阵的行数
height = dataset.RasterYSize
# 波段数
bands = dataset