【WRF理论第十五期】WPS中输入geogrid二进制格式

WW、forever

已于 2025-04-08 17:01:41 修改

阅读量523

点赞数 15

分类专栏： WRF模型原理及应用文章标签： WRF WPS

于 2025-04-08 16:37:58 首次发布

本文链接：https://blog.csdn.net/qq_44246618/article/details/147069756

版权

WRF模型原理及应用专栏收录该内容

120 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

WPS中输入geogrid二进制格式

基本概念：Geogrid二进制格式
- 支持的数据类型
geotiff→tiff的规则说明
文件命名规范
索引文件（index 文件）
- 📁 Index 文件变量说明（Index Options）
基础知识说明-字节序
参考

本博客主要根据WRF官网教程中，有关写入二进制数据的描述-Writing Static Data to the Geogrid Binary Format，详细描述输入WPS的静态地理数据二进制格式。
在这里插入图片描述

基本概念：Geogrid二进制格式

WRF 的 geogrid 程序使用一种简单的二进制栅格格式来存储地理静态数据集（如地形、高度、土地利用等）。这些数据是规则的二维或三维数组（2D/3D array）。

注意，Geogrid 的二进制格式只能存储：

正整数
固定字节大小（1, 2, 3, 或 4 字节）
不能直接存储负数

这三条数据约束我们应该牢记于心！！！

支持的数据类型

Geogrid 支持的四类数据类型如下：

单层连续字段（Continuous field）
多层连续字段（例如：土壤层）
主导类别的分类字段（Dominant category for each grid point）
每类的分数字段（Fractional coverage for each category）

其中，主导类别的分类字段是最简单的，因为它只需要按区域写入整数分类值。

1、单层连续字段（Single-Level Continuous Field）

✅ 特点：

每个格点包含一个连续的实数值。
常用于描述地形、高度、温度等连续分布的物理量。
数据通常需缩放、转为整数，并进行正值偏移处理（如果有负数）。

✅ 存储方式：2D float → scaled int 数组，按行写入。

✅ 示例数据：

数据集	描述	示例类别值
DEM（Digital Elevation Model）	数字高程模型	0 - 8000 米
Green Fraction	植被覆盖度	0.0 - 1.0
LAI（Leaf Area Index）	叶面积指数	0.0 - 10.0

2、多层连续字段（Multi-Level Continuous Field）

✅ 特点：

每个格点包含多个连续数值，表示该位置在不同层级的物理量。
多用于土壤水分、温度、LAI 等具有垂直层次结构的数据。

✅ 存储方式：3D float → scaled int 数组（n × m × z）。

✅ 示例数据：

数据集	描述	示例类别值
LAI（Leaf Area Index, 多时段）	不同月份的叶面积指数	12 层（月平均）
Soil Moisture	多层土壤湿度	4 层土壤深度
Soil Temperature	多层土壤温度	4 层

3、主导类别的分类字段（Dominant Category Field）

✅ 特点：

每个格点存储一个整数值，表示该位置的主导类别。
最简单的数据类型，直接存储整数分类编号。
通常用于土地利用、土壤类型等具有离散分类的数据。

✅ 存储方式：2D 整数数组，按行（从南向北）写入二进制文件。

✅ 示例数据：

数据集	描述	示例类别值
LUCC（Land Use Cover Classification）	土地利用/覆盖类型	1: 城市，2: 农田，3: 林地，…
Soil Category	土壤类型	1: 壤土，2: 粘土，3: 砂土，…

4、每类的分数字段（Fractional Coverage per Category）

✅ 特点：

每个格点存储多个连续值，表示每个分类的占比（0~1）。
是一种多层连续字段，每层对应一个类别。
可以更精细地描述一个格点上多个类型的混合情况。

✅ 存储方式：3D 浮点数组（n × m × r），r为类别数。

✅ 示例数据：

数据集	描述	示例类别值
Fractional Land Use	每类土地利用的面积比例	第1层：农田占比，第2层：森林占比，…
MODIS Land Cover Fraction	MODIS 的土地覆盖比例数据	每类一个层级，值为 0.0~1.0

geotiff→tiff的规则说明

类型1：主导类别字段（Dominant Category Field）

✅ 数据结构：一个规则二维数组，每个元素是一个整数，代表该格点的主导类别（如土地利用类型编号）。
例如：30秒分辨率的 USGS 土地利用数据。

✅ 写入顺序（二维数组写入方式）：

按行写入（从南向北），即从底部行开始写入，依次向上。
每一行按从左到右顺序写入。

写入顺序示例（n 行 × m 列）：
x11, x12, ..., x1m, x21, ..., x2m, ..., xn1, ..., xnm

在这里插入图片描述
✅ 存储格式：

每个元素以1、2、3 或 4 字节的整数存储。
使用大端字节序（big-endian）：高字节在前（A-B-C-D），可通过 index 文件设置为 little-endian。（有关字节序的说明可参见本博客后续内容，详细解释为何需要设置inde为 little-endian）
文件必须是：无头文件（No header）、无记录标记（No record marker）
定长：每元素固定字节数

注意❗ Fortran写文件会自动添加记录标记，因此不能直接用 Fortran 写该文件。应使用 geogrid/src 目录中的 write_geogrid.c 或 read_geogrid.c 来处理。

类型2：连续字段（Continuous Field）

✅ 数据结构：连续字段（如地形高程、温度等）也按规则二维数组组织。

✅ 转换步骤：
1、缩放（Scaling）：将小数放大为整数（如保留3位小数就除以 0.001）。
2、四舍五入（Rounding）：去掉小数部分，转为整数。
3、负值处理（转正）：

1字节：加上 2⁸（=255）
2字节：加上 2¹⁶（=65536）
3字节：加上 2²⁴
4字节：加上 2³²

例：-2.71828 → -2718 → 若用2字节存储：-2718 + 65536 = 62818

4、写入文件方式与主导类别完全相同。

注意：只有负数要加偏移量，正数保持不变

字节数	偏移值	有符号整数（signed integer）的取值范围（加偏移前）	无符号数（unsigned）的取值范围（加偏移后）
1 字节	2⁸ = 256	-128 ~ 127	0 ~ 255
2 字节	2¹⁶ = 65536	-32768 ~ 32767	0 ~ 65535
3 字节	2²⁴ = 16777216	-8388608 ~ 8388607	0 ~ 16777215
4 字节	2³² = 4294967296	-2147483648 ~ 2147483647	0 ~ 4294967295

类型3：多层字段（Multi-Level Field）

类似于多个连续字段层堆叠成三维数组。

写入顺序：每个 n×m 切片（即每一层）连续写入，按层序（r-index 递增）排列。
每层数据写入顺序依然是从南到北、从西到东。

类型4：每类分数字段（Fractional Field per Category）

相当于每个类别占比是一个连续字段，多个类别 → 多层数据。
数据结构与多层连续字段相同。

文件命名规范

为使 geogrid 能正确识别数据，二进制文件命名必须如下：

xstart-xend.ystart-yend

每个数字（起始或结束坐标）是一个固定宽度的字符串，宽度由 filename_digits 决定。每个索引值为 5位/6位正整数，从1开始计数。

设置	文件名（示例）	坐标范围
filename_digits = 5	00001-01200.00001-01200	00001 ~ 99999（最大 tile 尺寸为 99999 个格点）
filename_digits = 6	000001-012000.000001-012000	支持更大区域：000001 ~ 999999

注意：文件命名必须左侧补零，确保每个数字占满 5 或 6 位，否则文件名不符合约定，geogrid 会报错。

例如：一个 800行 × 1200列的数据文件命名为：

00001-01200.00001-00800

生成的某二进制数据命名为：
在这里插入图片描述

✅ 多文件拼接说明：可以将一个大数据集拆分为多个 tile（瓦片文件），每块是规则矩形。所有 tile 必须：

维度相同
不重叠
索引连续，无空缺
若维度不能整除 → 用填充值填充（由 missing_value 指定）

索引文件（index 文件）

每个数据集必须有一个名为 index 的元数据文件，提供地理信息和数据结构说明。

✅ 示例内容解释：

type = continuous           # 字段类型（continuous / categorical）
signed = yes                # 是否包含负值
projection = regular_ll     # 投影类型（经纬度）
dx = 0.00833333             # 经度间距（单位：度）
dy = 0.00833333             # 纬度间距
known_x = 1.0               # 数组中第一个点的 x 索引
known_y = 1.0               # 数组中第一个点的 y 索引
known_lat = -89.99583       # 第一个点的纬度
known_lon = -179.99583      # 第一个点的经度
wordsize = 2                # 每个数据点的字节数（1/2/3/4）
tile_x = 1200               # 每个 tile 的 x 方向大小
tile_y = 1200               # 每个 tile 的 y 方向大小
tile_z = 1                  # 层数（单层为1）
tile_bdr = 3                # 缓冲区大小
units = "meters MSL"        # 单位说明
description = "Topography height" # 数据集描述

📁 Index 文件变量说明（Index Options）

变量名	默认值	中文解释	详细说明
projection	无默认值	投影方式	设置数据的投影类型，可为 lambert、polar、mercator、regular_ll（规则经纬度）、albers_nad83 或 polar_wgs84。必须设置。
type	无默认值	数据类型	指定数据是连续（continuous）还是分类（categorical）。如果是每类别一个分数字段（如分布比例），也应设为 continuous。
signed	no	是否带符号	指明数据是否为有符号整数（采用补码表示）。如有负值，需设为 yes。
units	无默认值	单位	字符串，描述该数据的物理单位，如 “meters MSL”、“fraction”，会写入 geogrid 输出文件中。
description	无默认值	描述	字符串，对该字段的简短描述，如 “Topography height”。也会写入 geogrid 输出文件。
dx	无默认值	x方向网格间距	网格在x方向的间隔。若投影为 regular_ll，单位为度；否则为米。
dy	无默认值	y方向网格间距	同上，y方向网格间距。
known_x	1	已知点 x索引	一个地理坐标（经纬度）对应的数组 i 值。用于定位。
known_y	1	已知点 y索引	同上，对应的数组 j 值。
known_lat	无默认值	已知纬度	与 known_x、known_y 一起用于投影转换的已知点纬度。
known_lon	无默认值	已知经度	同上，经度。
stdlon	无默认值	标准经度	用于锥形与极地投影，表示与 y 轴平行的经线。
truelat1	无默认值	第一真实纬度	用于锥形和极地投影。对于极地投影，这是唯一的真实纬度。
truelat2	无默认值	第二真实纬度	仅用于锥形投影。
wordsize	无默认值	每个数据点字节数	每个网格点用几个字节表示（1、2、3、4）。一般为2字节或者3字节。
tile_x	无默认值	x方向 tile 尺寸	每个 tile 在 x 方向上的网格点数（不包括 halo）。
tile_y	无默认值	y方向 tile 尺寸	同上，y 方向。
tile_z	无默认值	z方向（层数）	tile 的层数。如果使用此项，则默认从第1层开始。
tile_z_start	无默认值	z起始索引	如果使用自定义 z 层范围，则需设置起始层索引。
tile_z_end	无默认值	z结束索引	同上，结束层索引。
category_min	无默认值	最小分类值	对于分类数据，指定最小类别编号。必须配合 category_max 使用。
category_max	无默认值	最大分类值	同上，最大类别编号。
tile_bdr	0	边界宽度	halo 区域的宽度（单位：格点数），通常设为 0 或 3。
missing_value	无默认值	缺失值标志	数据中若存在该值，会被识别为缺失值。用于填充值、边界扩展等。
scale_factor	1	缩放因子	从整数数据中读取后应乘以此数值，用于恢复原始物理单位。
row_order	bottom_top	行写入顺序	指定数据是从南到北写入（bottom_top），还是从北到南（top_bottom）。有些 USGS 数据为 top_bottom。
endian	big	字节序	指定数据是 big-endian（高字节在前）还是 little-endian（低字节在前）。
iswater	16	水体类别编号	指定“水体”的土地利用分类编号。
islake	-1	湖泊类别编号	指定“湖泊”的土地利用编号（如果与水体分开）。
isice	24	冰雪类别编号	指定“冰川/冰雪”的土地利用分类编号。
isurban	1	城市类别编号	指定“城市”的土地利用分类编号。
isoilwater	14	水体土壤编号	指定“水体”的土壤分类编号。
mminlu	“USGS”	土地利用分类系统	指定使用的土地利用系统，如 “USGS”、“MODIFIED_IGBP_MODIS_NOAH” 等，对应 WRF 中的 LANDUSE.TBL 部分。
filename_digits	5	文件名数字位数	设置 tile 文件名中的编号位数，必须为 5 或 6。例如：00001-01200.00001-01200。

基础知识说明-字节序

字节序概述

字节序（Byte Order），也叫做端序（Endianness），是计算机在存储多字节数据（如整数、浮点数）时，如何排列每个字节的方式。

1、🧠 字节序（Byte Order）概念

当一个数需要多个字节存储时，比如：

1字节（8位）能表示 0 ~ 255（2^8）
2字节（16位）能表示 0 ~ 65535（2^16）
4字节（32位）能表示一个较大的整数

此时，字节的排列顺序就变得重要。

2、📌 两种常见字节序

字节序类型	描述	存储顺序（低地址 → 高地址）
Big-endian	高字节在前	A B C D（正常阅读顺序）
Little-endian	低字节在前	D C B A

📌 注意：无论顺序如何，计算机最终解释的数值是一样的，只是存储方式不同。

假设我们要存储一个 4 字节整数 0x12345678（十六进制）：

PS：0x 是十六进制（hexadecimal）的前缀，表示这个数字是以十六进制表示的，而不是十进制或二进制。
将 0x12345678 转换为二进制，就是：
0001 0010 0011 0100 0101 0110 0111 1000
一共 32 位（bit），也就是：32 位 ÷ 8 = 4 字节（byte）