WPS中输入geogrid二进制格式
本博客主要根据WRF官网教程中,有关写入二进制数据的描述-Writing Static Data to the Geogrid Binary Format,详细描述输入WPS的静态地理数据二进制格式。
基本概念:Geogrid二进制格式
WRF 的 geogrid 程序使用一种简单的二进制栅格格式来存储地理静态数据集(如地形、高度、土地利用等)。这些数据是规则的二维或三维数组(2D/3D array)。
注意,Geogrid 的二进制格式 只能存储:
- 正整数
- 固定字节大小(1, 2, 3, 或 4 字节)
- 不能直接存储负数
这三条数据约束我们应该牢记于心!!!
支持的数据类型
Geogrid 支持的四类数据类型如下:
- 单层连续字段(Continuous field)
- 多层连续字段(例如:土壤层)
- 主导类别的分类字段(Dominant category for each grid point)
- 每类的分数字段(Fractional coverage for each category)
其中,主导类别的分类字段是最简单的,因为它只需要按区域写入整数分类值。
1、单层连续字段(Single-Level Continuous Field)
✅ 特点:
- 每个格点包含一个连续的实数值。
- 常用于描述地形、高度、温度等连续分布的物理量。
- 数据通常需缩放、转为整数,并进行正值偏移处理(如果有负数)。
✅ 存储方式:2D float → scaled int 数组,按行写入。
✅ 示例数据:
数据集 | 描述 | 示例类别值 |
---|---|---|
DEM(Digital Elevation Model) | 数字高程模型 | 0 - 8000 米 |
Green Fraction | 植被覆盖度 | 0.0 - 1.0 |
LAI(Leaf Area Index) | 叶面积指数 | 0.0 - 10.0 |
2、多层连续字段(Multi-Level Continuous Field)
✅ 特点:
- 每个格点包含多个连续数值,表示该位置在不同层级的物理量。
- 多用于土壤水分、温度、LAI 等具有垂直层次结构的数据。
✅ 存储方式:3D float → scaled int 数组(n × m × z)。
✅ 示例数据:
数据集 | 描述 | 示例类别值 |
---|---|---|
LAI(Leaf Area Index, 多时段) | 不同月份的叶面积指数 | 12 层(月平均) |
Soil Moisture | 多层土壤湿度 | 4 层土壤深度 |
Soil Temperature | 多层土壤温度 | 4 层 |
3、主导类别的分类字段(Dominant Category Field)
✅ 特点:
- 每个格点存储一个整数值,表示该位置的主导类别。
- 最简单的数据类型,直接存储整数分类编号。
- 通常用于土地利用、土壤类型等具有离散分类的数据。
✅ 存储方式:2D 整数数组,按行(从南向北)写入二进制文件。
✅ 示例数据:
数据集 | 描述 | 示例类别值 |
---|---|---|
LUCC(Land Use Cover Classification) | 土地利用/覆盖类型 | 1: 城市,2: 农田,3: 林地,… |
Soil Category | 土壤类型 | 1: 壤土,2: 粘土,3: 砂土,… |
4、每类的分数字段(Fractional Coverage per Category)
✅ 特点:
- 每个格点存储多个连续值,表示每个分类的占比(0~1)。
- 是一种多层连续字段,每层对应一个类别。
- 可以更精细地描述一个格点上多个类型的混合情况。
✅ 存储方式:3D 浮点数组(n × m × r),r为类别数。
✅ 示例数据:
数据集 | 描述 | 示例类别值 |
---|---|---|
Fractional Land Use | 每类土地利用的面积比例 | 第1层:农田占比,第2层:森林占比,… |
MODIS Land Cover Fraction | MODIS 的土地覆盖比例数据 | 每类一个层级,值为 0.0~1.0 |
geotiff→tiff的规则说明
类型1:主导类别字段(Dominant Category Field)
✅ 数据结构:一个规则二维数组,每个元素是一个整数,代表该格点的主导类别(如土地利用类型编号)。
例如:30秒分辨率的 USGS 土地利用数据。
✅ 写入顺序(二维数组写入方式):
- 按行写入(从南向北),即从底部行开始写入,依次向上。
- 每一行按从左到右顺序写入。
写入顺序示例(n 行 × m 列):
x11, x12, ..., x1m, x21, ..., x2m, ..., xn1, ..., xnm
✅ 存储格式:
- 每个元素以1、2、3 或 4 字节的整数存储。
- 使用大端字节序(big-endian):高字节在前(A-B-C-D),可通过 index 文件设置为 little-endian。(有关字节序的说明可参见本博客后续内容,详细解释为何需要设置inde为 little-endian)
- 文件必须是:无头文件(No header)、无记录标记(No record marker)
- 定长:每元素固定字节数
注意❗ Fortran写文件会自动添加记录标记,因此不能直接用 Fortran 写该文件。应使用 geogrid/src 目录中的 write_geogrid.c 或 read_geogrid.c 来处理。
类型2:连续字段(Continuous Field)
✅ 数据结构:连续字段(如地形高程、温度等)也按规则二维数组组织。
✅ 转换步骤:
1、缩放(Scaling):将小数放大为整数(如保留3位小数就除以 0.001)。
2、四舍五入(Rounding):去掉小数部分,转为整数。
3、负值处理(转正):
- 1字节:加上 2⁸(=255)
- 2字节:加上 2¹⁶(=65536)
- 3字节:加上 2²⁴
- 4字节:加上 2³²
例:-2.71828 → -2718 → 若用2字节存储:-2718 + 65536 = 62818
4、写入文件方式与主导类别完全相同。
注意:只有负数要加偏移量,正数保持不变
字节数 | 偏移值 | 有符号整数(signed integer)的取值范围(加偏移前) | 无符号数(unsigned)的取值范围(加偏移后) |
---|---|---|---|
1 字节 | 2⁸ = 256 | -128 ~ 127 | 0 ~ 255 |
2 字节 | 2¹⁶ = 65536 | -32768 ~ 32767 | 0 ~ 65535 |
3 字节 | 2²⁴ = 16777216 | -8388608 ~ 8388607 | 0 ~ 16777215 |
4 字节 | 2³² = 4294967296 | -2147483648 ~ 2147483647 | 0 ~ 4294967295 |
类型3:多层字段(Multi-Level Field)
类似于多个连续字段层堆叠成三维数组。
写入顺序:每个 n×m 切片(即每一层)连续写入,按层序(r-index 递增)排列。
每层数据写入顺序依然是从南到北、从西到东。
类型4:每类分数字段(Fractional Field per Category)
相当于每个类别占比是一个连续字段,多个类别 → 多层数据。
数据结构与多层连续字段相同。
文件命名规范
为使 geogrid 能正确识别数据,二进制文件命名必须如下:
xstart-xend.ystart-yend
每个数字(起始或结束坐标)是一个固定宽度的字符串,宽度由 filename_digits 决定。每个索引值为 5位/6位 正整数,从1开始计数。
设置 | 文件名(示例) | 坐标范围 |
---|---|---|
filename_digits = 5 | 00001-01200.00001-01200 | 00001 ~ 99999(最大 tile 尺寸为 99999 个格点) |
filename_digits = 6 | 000001-012000.000001-012000 | 支持更大区域:000001 ~ 999999 |
注意:文件命名必须左侧补零,确保每个数字占满 5 或 6 位,否则文件名不符合约定,geogrid 会报错。
例如:一个 800行 × 1200列 的数据文件命名为:
00001-01200.00001-00800
生成的某二进制数据命名为:
✅ 多文件拼接说明:可以将一个大数据集拆分为多个 tile(瓦片文件),每块是规则矩形。所有 tile 必须:
- 维度相同
- 不重叠
- 索引连续,无空缺
- 若维度不能整除 → 用填充值填充(由 missing_value 指定)
索引文件(index 文件)
每个数据集必须有一个名为 index 的元数据文件,提供地理信息和数据结构说明。
✅ 示例内容解释:
type = continuous # 字段类型(continuous / categorical)
signed = yes # 是否包含负值
projection = regular_ll # 投影类型(经纬度)
dx = 0.00833333 # 经度间距(单位:度)
dy = 0.00833333 # 纬度间距
known_x = 1.0 # 数组中第一个点的 x 索引
known_y = 1.0 # 数组中第一个点的 y 索引
known_lat = -89.99583 # 第一个点的纬度
known_lon = -179.99583 # 第一个点的经度
wordsize = 2 # 每个数据点的字节数(1/2/3/4)
tile_x = 1200 # 每个 tile 的 x 方向大小
tile_y = 1200 # 每个 tile 的 y 方向大小
tile_z = 1 # 层数(单层为1)
tile_bdr = 3 # 缓冲区大小
units = "meters MSL" # 单位说明
description = "Topography height" # 数据集描述
📁 Index 文件变量说明(Index Options)
变量名 | 默认值 | 中文解释 | 详细说明 |
---|---|---|---|
projection | 无默认值 | 投影方式 | 设置数据的投影类型,可为 lambert、polar、mercator、regular_ll(规则经纬度)、albers_nad83 或 polar_wgs84。必须设置。 |
type | 无默认值 | 数据类型 | 指定数据是连续(continuous)还是分类(categorical)。如果是每类别一个分数字段(如分布比例),也应设为 continuous。 |
signed | no | 是否带符号 | 指明数据是否为有符号整数(采用补码表示)。如有负值,需设为 yes。 |
units | 无默认值 | 单位 | 字符串,描述该数据的物理单位,如 “meters MSL”、“fraction”,会写入 geogrid 输出文件中。 |
description | 无默认值 | 描述 | 字符串,对该字段的简短描述,如 “Topography height”。也会写入 geogrid 输出文件。 |
dx | 无默认值 | x方向网格间距 | 网格在x方向的间隔。若投影为 regular_ll,单位为度;否则为米。 |
dy | 无默认值 | y方向网格间距 | 同上,y方向网格间距。 |
known_x | 1 | 已知点 x索引 | 一个地理坐标(经纬度)对应的数组 i 值。用于定位。 |
known_y | 1 | 已知点 y索引 | 同上,对应的数组 j 值。 |
known_lat | 无默认值 | 已知纬度 | 与 known_x、known_y 一起用于投影转换的已知点纬度。 |
known_lon | 无默认值 | 已知经度 | 同上,经度。 |
stdlon | 无默认值 | 标准经度 | 用于锥形与极地投影,表示与 y 轴平行的经线。 |
truelat1 | 无默认值 | 第一真实纬度 | 用于锥形和极地投影。对于极地投影,这是唯一的真实纬度。 |
truelat2 | 无默认值 | 第二真实纬度 | 仅用于锥形投影。 |
wordsize | 无默认值 | 每个数据点字节数 | 每个网格点用几个字节表示(1、2、3、4)。一般为2字节或者3字节。 |
tile_x | 无默认值 | x方向 tile 尺寸 | 每个 tile 在 x 方向上的网格点数(不包括 halo)。 |
tile_y | 无默认值 | y方向 tile 尺寸 | 同上,y 方向。 |
tile_z | 无默认值 | z方向(层数) | tile 的层数。如果使用此项,则默认从第1层开始。 |
tile_z_start | 无默认值 | z起始索引 | 如果使用自定义 z 层范围,则需设置起始层索引。 |
tile_z_end | 无默认值 | z结束索引 | 同上,结束层索引。 |
category_min | 无默认值 | 最小分类值 | 对于分类数据,指定最小类别编号。必须配合 category_max 使用。 |
category_max | 无默认值 | 最大分类值 | 同上,最大类别编号。 |
tile_bdr | 0 | 边界宽度 | halo 区域的宽度(单位:格点数),通常设为 0 或 3。 |
missing_value | 无默认值 | 缺失值标志 | 数据中若存在该值,会被识别为缺失值。用于填充值、边界扩展等。 |
scale_factor | 1 | 缩放因子 | 从整数数据中读取后应乘以此数值,用于恢复原始物理单位。 |
row_order | bottom_top | 行写入顺序 | 指定数据是从南到北写入(bottom_top),还是从北到南(top_bottom)。有些 USGS 数据为 top_bottom。 |
endian | big | 字节序 | 指定数据是 big-endian(高字节在前)还是 little-endian(低字节在前)。 |
iswater | 16 | 水体类别编号 | 指定“水体”的土地利用分类编号。 |
islake | -1 | 湖泊类别编号 | 指定“湖泊”的土地利用编号(如果与水体分开)。 |
isice | 24 | 冰雪类别编号 | 指定“冰川/冰雪”的土地利用分类编号。 |
isurban | 1 | 城市类别编号 | 指定“城市”的土地利用分类编号。 |
isoilwater | 14 | 水体土壤编号 | 指定“水体”的土壤分类编号。 |
mminlu | “USGS” | 土地利用分类系统 | 指定使用的土地利用系统,如 “USGS”、“MODIFIED_IGBP_MODIS_NOAH” 等,对应 WRF 中的 LANDUSE.TBL 部分。 |
filename_digits | 5 | 文件名数字位数 | 设置 tile 文件名中的编号位数,必须为 5 或 6。例如:00001-01200.00001-01200。 |
基础知识说明-字节序
字节序概述
字节序(Byte Order),也叫做 端序(Endianness),是计算机在存储多字节数据(如整数、浮点数)时,如何排列每个字节的方式。
1、🧠 字节序(Byte Order)概念
当一个数需要多个字节存储时,比如:
- 1字节(8位)能表示 0 ~ 255(2^8)
- 2字节(16位)能表示 0 ~ 65535(2^16)
- 4字节(32位)能表示一个较大的整数
此时,字节的排列顺序就变得重要。
2、📌 两种常见字节序
字节序类型 | 描述 | 存储顺序(低地址 → 高地址) |
---|---|---|
Big-endian | 高字节在前 | A B C D(正常阅读顺序) |
Little-endian | 低字节在前 | D C B A |
📌 注意:无论顺序如何,计算机最终解释的数值是一样的,只是存储方式不同。
假设我们要存储一个 4 字节整数 0x12345678(十六进制):
PS:0x 是 十六进制(hexadecimal) 的前缀,表示这个数字是以十六进制表示的,而不是十进制或二进制。
将 0x12345678 转换为二进制,就是:
0001 0010 0011 0100 0101 0110 0111 1000
一共 32 位(bit),也就是:32 位 ÷ 8 = 4 字节(byte)
字节 | 数值 | 十六进制 |
---|---|---|
A | 0x12 | 高字节(最高位) |
B | 0x34 | |
C | 0x56 | |
D | 0x78 | 低字节(最低位) |
那么,这个 4 字节整数 0x12345678 在内存中的两种排列方式为:
类型 | 存储顺序 |
---|---|
Big-endian (高字节在前) | 12 34 56 78 |
Little-endian (低字节在前) | 78 56 34 12 |
📁 在 Geogrid 中的含义
Geogrid 的二进制文件在写入时默认使用 big-endian(高字节在前的顺序),这意味着:
- 读取时 Geogrid 会按此顺序解释字节
- 如果你用的系统(如 x86 架构)默认使用 little-endian,那么如果你直接用系统默认方式写二进制文件,Geogrid 会读错数值
✅ index 文件的设置
为了让 geogrid 正确读取文件,你可以在 index 文件中设置:
endian = little
这表示你写入的数据是 little-endian 格式,Geogrid 会自动调整读取方式。
作用:
- 避免因系统默认字节序与 Geogrid 预期不一致导致读取错误。
- 提高兼容性:可以使用常规 Python、C、Java 写文件(默认 little-endian),只需在 index 中声明即可。