【WRF理论第十五期】WPS中输入geogrid二进制格式

本博客主要根据WRF官网教程中,有关写入二进制数据的描述-Writing Static Data to the Geogrid Binary Format,详细描述输入WPS的静态地理数据二进制格式。
在这里插入图片描述

基本概念:Geogrid二进制格式

WRF 的 geogrid 程序使用一种简单的二进制栅格格式来存储地理静态数据集(如地形、高度、土地利用等)。这些数据是规则的二维或三维数组(2D/3D array)。

注意,Geogrid 的二进制格式 只能存储:

  • 正整数
  • 固定字节大小(1, 2, 3, 或 4 字节)
  • 不能直接存储负数

这三条数据约束我们应该牢记于心!!!

支持的数据类型

Geogrid 支持的四类数据类型如下:

  • 单层连续字段(Continuous field)
  • 多层连续字段(例如:土壤层)
  • 主导类别的分类字段(Dominant category for each grid point)
  • 每类的分数字段(Fractional coverage for each category)

其中,主导类别的分类字段是最简单的,因为它只需要按区域写入整数分类值。

1、单层连续字段(Single-Level Continuous Field)

✅ 特点:

  • 每个格点包含一个连续的实数值。
  • 常用于描述地形、高度、温度等连续分布的物理量。
  • 数据通常需缩放、转为整数,并进行正值偏移处理(如果有负数)。

✅ 存储方式:2D float → scaled int 数组,按行写入。

✅ 示例数据:

数据集描述示例类别值
DEM(Digital Elevation Model)数字高程模型0 - 8000 米
Green Fraction植被覆盖度0.0 - 1.0
LAI(Leaf Area Index)叶面积指数0.0 - 10.0

2、多层连续字段(Multi-Level Continuous Field)

✅ 特点:

  • 每个格点包含多个连续数值,表示该位置在不同层级的物理量。
  • 多用于土壤水分、温度、LAI 等具有垂直层次结构的数据。

✅ 存储方式:3D float → scaled int 数组(n × m × z)。

✅ 示例数据:

数据集描述示例类别值
LAI(Leaf Area Index, 多时段)不同月份的叶面积指数12 层(月平均)
Soil Moisture多层土壤湿度4 层土壤深度
Soil Temperature多层土壤温度4 层

3、主导类别的分类字段(Dominant Category Field)

✅ 特点:

  • 每个格点存储一个整数值,表示该位置的主导类别。
  • 最简单的数据类型,直接存储整数分类编号。
  • 通常用于土地利用、土壤类型等具有离散分类的数据。

✅ 存储方式:2D 整数数组,按行(从南向北)写入二进制文件。

✅ 示例数据:

数据集描述示例类别值
LUCC(Land Use Cover Classification)土地利用/覆盖类型1: 城市,2: 农田,3: 林地,…
Soil Category土壤类型1: 壤土,2: 粘土,3: 砂土,…

4、每类的分数字段(Fractional Coverage per Category)

✅ 特点:

  • 每个格点存储多个连续值,表示每个分类的占比(0~1)。
  • 是一种多层连续字段,每层对应一个类别。
  • 可以更精细地描述一个格点上多个类型的混合情况。

✅ 存储方式:3D 浮点数组(n × m × r),r为类别数。

✅ 示例数据:

数据集描述示例类别值
Fractional Land Use每类土地利用的面积比例第1层:农田占比,第2层:森林占比,…
MODIS Land Cover FractionMODIS 的土地覆盖比例数据每类一个层级,值为 0.0~1.0

geotiff→tiff的规则说明

类型1:主导类别字段(Dominant Category Field)

✅ 数据结构:一个规则二维数组,每个元素是一个整数,代表该格点的主导类别(如土地利用类型编号)。
例如:30秒分辨率的 USGS 土地利用数据。

✅ 写入顺序(二维数组写入方式):

  • 按行写入(从南向北),即从底部行开始写入,依次向上。
  • 每一行按从左到右顺序写入。
写入顺序示例(n 行 × m 列):
x11, x12, ..., x1m, x21, ..., x2m, ..., xn1, ..., xnm

在这里插入图片描述
✅ 存储格式:

  • 每个元素以1、2、3 或 4 字节的整数存储。
  • 使用大端字节序(big-endian):高字节在前(A-B-C-D),可通过 index 文件设置为 little-endian。(有关字节序的说明可参见本博客后续内容,详细解释为何需要设置inde为 little-endian)
  • 文件必须是:无头文件(No header)、无记录标记(No record marker)
  • 定长:每元素固定字节数

注意❗ Fortran写文件会自动添加记录标记,因此不能直接用 Fortran 写该文件。应使用 geogrid/src 目录中的 write_geogrid.c 或 read_geogrid.c 来处理。

类型2:连续字段(Continuous Field)

✅ 数据结构:连续字段(如地形高程、温度等)也按规则二维数组组织。

✅ 转换步骤:
1、缩放(Scaling):将小数放大为整数(如保留3位小数就除以 0.001)。
2、四舍五入(Rounding):去掉小数部分,转为整数。
3、负值处理(转正):

  • 1字节:加上 2⁸(=255)
  • 2字节:加上 2¹⁶(=65536)
  • 3字节:加上 2²⁴
  • 4字节:加上 2³²
例:-2.71828-2718 → 若用2字节存储:-2718 + 65536 = 62818

4、写入文件方式与主导类别完全相同。

注意:只有负数要加偏移量,正数保持不变

字节数偏移值有符号整数(signed integer)的取值范围(加偏移前)无符号数(unsigned)的取值范围(加偏移后)
1 字节2⁸ = 256-128 ~ 1270 ~ 255
2 字节2¹⁶ = 65536-32768 ~ 327670 ~ 65535
3 字节2²⁴ = 16777216-8388608 ~ 83886070 ~ 16777215
4 字节2³² = 4294967296-2147483648 ~ 21474836470 ~ 4294967295

类型3:多层字段(Multi-Level Field)

类似于多个连续字段层堆叠成三维数组。

写入顺序:每个 n×m 切片(即每一层)连续写入,按层序(r-index 递增)排列。
每层数据写入顺序依然是从南到北、从西到东。

类型4:每类分数字段(Fractional Field per Category)

相当于每个类别占比是一个连续字段,多个类别 → 多层数据。
数据结构与多层连续字段相同。

文件命名规范

为使 geogrid 能正确识别数据,二进制文件命名必须如下:

xstart-xend.ystart-yend

每个数字(起始或结束坐标)是一个固定宽度的字符串,宽度由 filename_digits 决定。每个索引值为 5位/6位 正整数,从1开始计数。

设置文件名(示例)坐标范围
filename_digits = 500001-01200.00001-0120000001 ~ 99999(最大 tile 尺寸为 99999 个格点)
filename_digits = 6000001-012000.000001-012000支持更大区域:000001 ~ 999999

注意:文件命名必须左侧补零,确保每个数字占满 5 或 6 位,否则文件名不符合约定,geogrid 会报错。

例如:一个 800行 × 1200列 的数据文件命名为:

00001-01200.00001-00800

生成的某二进制数据命名为:
在这里插入图片描述

✅ 多文件拼接说明:可以将一个大数据集拆分为多个 tile(瓦片文件),每块是规则矩形。所有 tile 必须:

  • 维度相同
  • 不重叠
  • 索引连续,无空缺
  • 若维度不能整除 → 用填充值填充(由 missing_value 指定)

索引文件(index 文件)

每个数据集必须有一个名为 index 的元数据文件,提供地理信息和数据结构说明。

✅ 示例内容解释:

type = continuous           # 字段类型(continuous / categorical)
signed = yes                # 是否包含负值
projection = regular_ll     # 投影类型(经纬度)
dx = 0.00833333             # 经度间距(单位:度)
dy = 0.00833333             # 纬度间距
known_x = 1.0               # 数组中第一个点的 x 索引
known_y = 1.0               # 数组中第一个点的 y 索引
known_lat = -89.99583       # 第一个点的纬度
known_lon = -179.99583      # 第一个点的经度
wordsize = 2                # 每个数据点的字节数(1/2/3/4)
tile_x = 1200               # 每个 tile 的 x 方向大小
tile_y = 1200               # 每个 tile 的 y 方向大小
tile_z = 1                  # 层数(单层为1)
tile_bdr = 3                # 缓冲区大小
units = "meters MSL"        # 单位说明
description = "Topography height" # 数据集描述

📁 Index 文件变量说明(Index Options)

变量名默认值中文解释详细说明
projection无默认值投影方式设置数据的投影类型,可为 lambert、polar、mercator、regular_ll(规则经纬度)、albers_nad83 或 polar_wgs84。必须设置。
type无默认值数据类型指定数据是连续(continuous)还是分类(categorical)。如果是每类别一个分数字段(如分布比例),也应设为 continuous。
signedno是否带符号指明数据是否为有符号整数(采用补码表示)。如有负值,需设为 yes。
units无默认值单位字符串,描述该数据的物理单位,如 “meters MSL”、“fraction”,会写入 geogrid 输出文件中。
description无默认值描述字符串,对该字段的简短描述,如 “Topography height”。也会写入 geogrid 输出文件。
dx无默认值x方向网格间距网格在x方向的间隔。若投影为 regular_ll,单位为度;否则为米。
dy无默认值y方向网格间距同上,y方向网格间距。
known_x1已知点 x索引一个地理坐标(经纬度)对应的数组 i 值。用于定位。
known_y1已知点 y索引同上,对应的数组 j 值。
known_lat无默认值已知纬度与 known_x、known_y 一起用于投影转换的已知点纬度。
known_lon无默认值已知经度同上,经度。
stdlon无默认值标准经度用于锥形与极地投影,表示与 y 轴平行的经线。
truelat1无默认值第一真实纬度用于锥形和极地投影。对于极地投影,这是唯一的真实纬度。
truelat2无默认值第二真实纬度仅用于锥形投影。
wordsize无默认值每个数据点字节数每个网格点用几个字节表示(1、2、3、4)。一般为2字节或者3字节。
tile_x无默认值x方向 tile 尺寸每个 tile 在 x 方向上的网格点数(不包括 halo)。
tile_y无默认值y方向 tile 尺寸同上,y 方向。
tile_z无默认值z方向(层数)tile 的层数。如果使用此项,则默认从第1层开始。
tile_z_start无默认值z起始索引如果使用自定义 z 层范围,则需设置起始层索引。
tile_z_end无默认值z结束索引同上,结束层索引。
category_min无默认值最小分类值对于分类数据,指定最小类别编号。必须配合 category_max 使用。
category_max无默认值最大分类值同上,最大类别编号。
tile_bdr0边界宽度halo 区域的宽度(单位:格点数),通常设为 0 或 3。
missing_value无默认值缺失值标志数据中若存在该值,会被识别为缺失值。用于填充值、边界扩展等。
scale_factor1缩放因子从整数数据中读取后应乘以此数值,用于恢复原始物理单位。
row_orderbottom_top行写入顺序指定数据是从南到北写入(bottom_top),还是从北到南(top_bottom)。有些 USGS 数据为 top_bottom。
endianbig字节序指定数据是 big-endian(高字节在前)还是 little-endian(低字节在前)。
iswater16水体类别编号指定“水体”的土地利用分类编号。
islake-1湖泊类别编号指定“湖泊”的土地利用编号(如果与水体分开)。
isice24冰雪类别编号指定“冰川/冰雪”的土地利用分类编号。
isurban1城市类别编号指定“城市”的土地利用分类编号。
isoilwater14水体土壤编号指定“水体”的土壤分类编号。
mminlu“USGS”土地利用分类系统指定使用的土地利用系统,如 “USGS”、“MODIFIED_IGBP_MODIS_NOAH” 等,对应 WRF 中的 LANDUSE.TBL 部分。
filename_digits5文件名数字位数设置 tile 文件名中的编号位数,必须为 5 或 6。例如:00001-01200.00001-01200。

基础知识说明-字节序

字节序概述

字节序(Byte Order),也叫做 端序(Endianness),是计算机在存储多字节数据(如整数、浮点数)时,如何排列每个字节的方式。

1、🧠 字节序(Byte Order)概念

当一个数需要多个字节存储时,比如:

  • 1字节(8位)能表示 0 ~ 255(2^8)
  • 2字节(16位)能表示 0 ~ 65535(2^16)
  • 4字节(32位)能表示一个较大的整数

此时,字节的排列顺序就变得重要。

2、📌 两种常见字节序

字节序类型描述存储顺序(低地址 → 高地址)
Big-endian高字节在前A B C D(正常阅读顺序)
Little-endian低字节在前D C B A

📌 注意:无论顺序如何,计算机最终解释的数值是一样的,只是存储方式不同。

假设我们要存储一个 4 字节整数 0x12345678(十六进制):

PS:0x 是 十六进制(hexadecimal) 的前缀,表示这个数字是以十六进制表示的,而不是十进制或二进制。
将 0x12345678 转换为二进制,就是:
0001 0010 0011 0100 0101 0110 0111 1000
一共 32 位(bit),也就是:32 位 ÷ 8 = 4 字节(byte)

字节数值十六进制
A0x12高字节(最高位)
B0x34
C0x56
D0x78低字节(最低位)

那么,这个 4 字节整数 0x12345678 在内存中的两种排列方式为:

类型存储顺序
Big-endian (高字节在前)12 34 56 78
Little-endian (低字节在前)78 56 34 12

📁 在 Geogrid 中的含义

Geogrid 的二进制文件在写入时默认使用 big-endian(高字节在前的顺序),这意味着:

  • 读取时 Geogrid 会按此顺序解释字节
  • 如果你用的系统(如 x86 架构)默认使用 little-endian,那么如果你直接用系统默认方式写二进制文件,Geogrid 会读错数值

✅ index 文件的设置

为了让 geogrid 正确读取文件,你可以在 index 文件中设置:

endian = little

这表示你写入的数据是 little-endian 格式,Geogrid 会自动调整读取方式。

作用:

  • 避免因系统默认字节序与 Geogrid 预期不一致导致读取错误。
  • 提高兼容性:可以使用常规 Python、C、Java 写文件(默认 little-endian),只需在 index 中声明即可。

参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WW、forever

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值