深度学习笔记-遥感影像转为tensor前的检查及线性拉伸

本文介绍了在使用深度学习进行遥感影像语义分割任务时,为何需要对影像进行线性拉伸。内容涉及`transforms.ToTensor`的原理,以及针对遥感影像16位或32位存储的特点,如何通过线性拉伸确保数据在[0,255]范围内,以适应8位存储的转换。通过实例展示了线性拉伸的过程及其重要性。" 114649281,8027254,SystemVerilog:动态数组与关联数组详解,"['硬件描述语言', 'SystemVerilog', '数组']
摘要由CSDN通过智能技术生成

@TOC


前言-为什么要做线性拉伸

近期在开展语义分割任务,用到的数据是经过SNAP预处理的Sentinel-1的SAR数据。工作需要将相关的Image和label送入模型,进行目标地物的分割。

这里用到的深度学习框架是pytorch,需要将影像数据转换为tensor后送入model。转换为tensor之前,需要对image和label的存储格式进行检查。为什么呢?这里就需要知道transforms.ToTensor对数据做了什么?


一、transforms.ToTensor

transforms.ToTensor会把一个取值范围是[0,255]的PIL.Image或者shape为(H,W,C)的numpy.ndarray,转换成形状为[C,H,W],取值范围是[0,1.0]的tensor。

需要注意,由于transforms.ToTensor最早适用于RGB三波段图像的处理,采用的存储是8位存储,所以这里简单使用了img/255的操作使图像取值范围保持在[0,1]。

而由于遥感影像有的是16位甚至32位存储,所以我们需要在image和label转换为tensor之前,保证image是8位存储,数值范围在[0,255]之间。这里采用的方法是线性拉伸


二、线性拉伸

对数据进行信息查看
地方地方在这里插入图片描述
可以看到Image的取值范围是[-39.9612,29.688],我们查看一下数值的分布。
在这里插入图片描述
可以看到,Image数值似乎是个双峰的正态分布,先不管他。由于影像中数值是最大最小值的像素数量非常少,我们就不能简单的用最大最小值作为0和255的对应值,否则可能会造成数据偏移。这就需要找到一个相对合理的最大最小值作为0和255的对应值。

这里用到一个numpy函数来判断怎么找合适的比例对影像数值进行“掐头去尾”,从而找到0和255合理的对应值。函数为np.percentile(),它将像素从小到大排列,通过np.percentile(data,percentage)查看当前的数值是多少。比如np.percentile(Image,0.05)就是查询这幅影像排列在0.05%位置处的像素数值,这幅影像0.05和99.95处大概是-34和-6。

附上代码如下,代码来源于师弟WZQ。

import numpy as np
import gdal

#  读取tif数据集
def readTif(fileName, xoff=0, yoff=0, data_width=0, data_height=0):
    dataset = gdal.Open(fileName)
    if dataset == None:
        print(fileName + "文件无法打开")
    #  栅格矩阵的列数
    width = dataset.RasterXSize
    #  栅格矩阵的行数
    height = dataset.RasterYSize
    #  波段数
    bands = dataset
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值