Data Imbalance, Uncertainty Quantification, and Generalization via Transfer Learning in Data-driven

《Data Imbalance, Uncertainty Quantification, and Generalization via Transfer Learning in Data-driven Parameterizations: Lessons from the Emulation of Gravity Wave Momentum Transport in WACCM》,讨论了神经网络在天气和气候模型中的数据驱动子网格参数化中的应用,并指出了三个挑战:数据不平衡、不确定性量化和泛化到其他气候的能力。通过使用重采样和加权损失函数等方法,文章成功地解决了数据不平衡问题,并展示了三种不确定性量化方法。最后,文章还通过迁移学习提高了神经网络在较温暖气候下的泛化能力。总之,该研究为开发可靠且通用的数据驱动参数化提供了重要见解。

图片

一、引言:

在天气和气候模型中,神经网络(NNs)越来越多地被用于数据驱动的亚网格尺度参数化。尽管NNs是学习复杂非线性关系的强大工具,但它们在参数化过程中存在几个挑战。本文将介绍如何使用NNs解决这些挑战,并介绍数据不平衡、不确定性量化(UQ)和推广到其他气候条件等问题,使用神经网络模拟WACCM的山区、对流和锋面重力波参数化。

二、数据及其方法:

  • 模型: 使用的是NCAR开发的全球大气环流模型WACCM(Whole Atmosphere Community Climate Model)。

  • 模拟类型: 包括两种模拟:一种是模拟10年的工业化前控制环境,另一种是模拟四倍二氧化碳浓度(4×CO2)条件下的增温环境。

  • 模型分辨率: WACCM的空间分辨率为0.95°纬度×1.25°经度。

  • 输出时间步长: 模型数据的输出时间步长为3小时。

  • 主要变量: 包括风场、温度、浮力频率等,这些都是重力波参数化方案的输入和输出变量。

图片

图1 工业化前模拟中CGWs、FGWs和OGWs的纬向平均GWD与纬向风气候图

  • 神经网络架构: 采用全连接的多层感知机(MLP)神经网络来模拟WACCM中的三种重力波参数化方案:地形波(OGWs)、对流波(CGWs)和锋面波(FGWs)。

  • 处理数据不平衡问题: 使用了重采样和加权损失函数的方法来平衡数据。

  • 不确定性量化方法: 实验了三种不确定性量化(UQ)方法:贝叶斯神经网络(BNN)、Dropout神经网络(DNN)和变分自编码器(VAE)。

  • 迁移学习: 为了提高模型对于增温情境的泛化能力,在4倍二氧化碳浓度条件下,使用迁移学习方法,仅用1%的新数据重新训练神经网络的一层。

图片

图2 本研究中使用的基于nn的仿真器和不同的训练/再训练策略。

三、结果:

1.数据不平衡问题:WACCM的物理基础重力波参数化(GWP)方案直接与其来源相关,导致数据集显著不平衡。地形波(OGWs)在WACCM中的数据不平衡问题更为严重。此外,大幅度重力波的偶发性也加剧了数据不平衡问题

图片

图3 对流波(CGWs)和锋面波(FGWs)在模拟的传统气候中的发生频率

图3表明,CGWs主要集中在热带地区,而FGWs则主要出现在中高纬度,特别是沿着风暴轨迹区域。这一发现对于理解模型如何处理不同重力波源的变异性至关重要。

2.归一化方法对模拟性能的影响

图片

图4 两种不同的数据处理方法在预测对流波时的效果

使用不同的归一化方法(NORM1和NORM2)对CGWs的模拟结果进行比较,发现NORM2在模拟罕见事件时表现更优。这表明选用适当的数据处理技术对于提高模型性能至关重要

3. 不确定性量化(UQ)的应用:

图片

图5 不同神经网络模型预测的区域性重力波拖曳(GWD)样本轮廓比较。

通过贝叶斯神经网络(BNN)、Dropout神经网络(DNN)和变分自编码器(VAE)对预测的不确定性进行量化。这些方法提供了合理的不确定性估计,有助于增强模型在预测时的可信度。

4.OOD(Out-of-Distribution)泛化能力

图片

图6 不同情景下神经网络预测CGWs和FGWs重力波拖曳(GWD)性能对比

在未来气候模拟中,CGWs的强化揭示了模型在处理OOD数据时的局限性。尤其是对CGWs的预测,在未来气候情景下表现下降,突出了模型适应未来气候变化的挑战。

四、总结和讨论:

1.有效处理数据不平衡:研究成功采用了重采样和加权损失函数等方法,有效地处理了WACCM模型中的数据不平衡问题,提高了模型的整体预测性能。

2.不确定性量化的局限性:虽然所采用的三种不确定性量化方法(贝叶斯神经网络、Dropout神经网络和变分自编码器)在当前气候条件下能提供合理的不确定性估计,但在处理不同于训练数据分布的OOD数据时,这些方法的可靠性有所下降。

3.迁移学习的高效应用:迁移学习方法在帮助神经网络适应不同气候条件,特别是在较暖气候情景下,展现了显著的有效性,减少了模型在这些新情景下的泛化误差。

4.相互关联的挑战:研究强调了处理数据不平衡、不确定性量化和泛化能力这三个挑战之间的密切关联性,以及它们对于气候变化研究中可靠预测的重要性。

总的来说,该研究对于在气候模型中实施神经网络提供了创新的解决策略,特别是在处理数据不平衡、提高预测准确性及适应不同气候情景方面,为气候科学领域的未来研究提供了重要的参考。

文章来源:

https://arxiv.org/abs/2311.17078

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值