Xarray核心数据结构详解：DataArray与Dataset深度解析-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00914/article/details/148552443

Xarray核心数据结构详解：DataArray与Dataset深度解析

xarray N-D labeled arrays and datasets in Python 项目地址: https://gitcode.com/gh_mirrors/xa/xarray

概述

在科学计算和数据分析领域，处理多维数组数据是一项常见任务。xarray项目提供了两种核心数据结构——DataArray和Dataset，它们为处理带标签的多维数据提供了强大而灵活的工具。本文将深入解析这两种数据结构的特性、创建方式和使用方法。

DataArray：带标签的多维数组

基本概念

DataArray是xarray对带标签多维数组的实现，可以看作是增强版的NumPy数组。它具有以下核心属性：

values：存储实际数据的NumPy数组或兼容数组
dims：各维度的名称（如('x', 'y', 'z')）
coords：标记每个数据点的坐标值（如时间戳、经纬度等）
attrs：存储任意元数据的字典

与纯NumPy数组相比，DataArray最大的优势在于它通过dims和coords实现了基于维度和坐标的操作能力。

创建DataArray

创建DataArray的基本构造函数参数包括：

xr.DataArray(
    data,          # 多维数组数据
    coords=[...],  # 坐标值
    dims=[...],    # 维度名称
    attrs={...},   # 元数据
    name="..."     # 数组名称
)

创建示例

import numpy as np
import pandas as pd
import xarray as xr

# 基础创建
data = np.random.rand(4, 3)
times = pd.date_range("2000-01-01", periods=4)
locs = ["IA", "IL", "IN"]
da = xr.DataArray(data, coords=[times, locs], dims=["time", "space"])

# 从pandas对象创建
df = pd.DataFrame({"x": [0, 1], "y": [2, 3]}, index=["a", "b"])
da_from_df = xr.DataArray(df)

坐标系统详解

DataArray的坐标系统非常灵活，支持多种定义方式：

列表形式：适用于简单的一维坐标

xr.DataArray(data, coords=[("time", times), ("space", locs)])

字典形式：支持多维坐标和额外坐标

xr.DataArray(
    data,
    coords={
        "time": times,
        "space": locs,
        "const": 42,  # 标量坐标
        "ranking": ("space", [1, 2, 3])  # 额外坐标
    },
    dims=["time", "space"]
)

多维坐标：坐标本身可以是多维的

xr.DataArray(
    data,
    coords={
        "ranking": (("time", "space"), np.arange(12).reshape(4, 3))
    },
    dims=["time", "space"]
)

属性和方法

DataArray提供了丰富的属性和方法来操作数据：

# 访问核心属性
da.values    # 底层数据数组
da.dims      # 维度名称
da.coords    # 坐标系统
da.attrs     # 元数据
da.name      # 数组名称

# 修改属性
da.name = "temperature"
da.attrs["units"] = "K"

# 坐标操作
da["new_coord"] = ("space", [1, 2, 3])  # 添加坐标
del da["new_coord"]                     # 删除坐标

Dataset：多维数据集的容器

基本概念

Dataset是xarray中更高级的数据结构，可以看作是多维版本的pandas DataFrame。它是多个DataArray的集合，这些数组共享对齐的维度。Dataset特别适合表示netCDF文件格式的数据模型。

关键属性包括：

dims：维度名称到长度的映射
data_vars：数据变量（主要数据）
coords：坐标变量（辅助数据）
attrs：全局元数据

创建Dataset

创建Dataset的典型方式：

# 从字典创建
ds = xr.Dataset({
    "temperature": (["loc", "time"], temp_data),
    "precipitation": (["loc", "time"], precip_data)
}, coords={
    "lon": (["loc"], lon_values),
    "lat": (["loc"], lat_values),
    "time": time_values
})

# 从DataArray创建
ds_from_da = xr.Dataset({"foo": da})

# 从pandas DataFrame创建
ds_from_df = xr.Dataset(df)

数据集操作

Dataset支持丰富的操作方法：

# 访问数据
ds["temperature"]      # 字典式访问
ds.temperature          # 属性式访问(仅读取)

# 数据变量和坐标
ds.data_vars            # 所有数据变量
ds.coords               # 所有坐标

# 更新数据集
ds["new_var"] = (["time"], new_data)  # 添加变量
del ds["new_var"]                     # 删除变量

# 转换操作
ds.drop_vars("temperature")      # 删除指定变量
ds.drop_dims("time")             # 删除维度及相关变量
ds.rename({"temp": "temperature"})  # 重命名变量

高级转换方法

Dataset提供了一些强大的转换方法：

# assign方法：创建新变量
ds.assign(temp2=lambda x: x.temperature * 2)

# pipe方法：支持方法链式调用
(ds.pipe(lambda x: x.temperature * 2)
   .pipe(lambda x: x.mean("time"))
   .pipe(plt.plot))

数据结构对比

| 特性 | DataArray | Dataset | |------------|---------------------------|----------------------------| | 数据存储 | 单个多维数组 | 多个对齐的多维数组 | | 适用场景 | 单一变量数据 | 多变量相关数据 | | 坐标系统 | 支持多维坐标 | 共享坐标系统 | | 元数据 | 单个attrs字典 | 全局attrs+变量级attrs | | 索引方式 | 维度名+坐标值 | 变量名+维度名+坐标值 |