一种估计贝叶斯检索问题后验分布的神经网络方法

最新推荐文章于 2024-10-06 19:57:35 发布

deardao

最新推荐文章于 2024-10-06 19:57:35 发布

阅读量950

点赞数 22

文章标签：神经网络人工智能深度学习

本文链接：https://blog.csdn.net/liangdaojun/article/details/140912586

版权

介绍

提出了一种基于神经网络的方法，即分位数回归神经网络 (QRNN)，作为估计贝叶斯遥感检索后验分布的新方法。与传统的神经网络检索相比，QRNN 的优势在于它们不仅学会预测单个检索值，还学会预测相关的、特定案例的不确定性。在本研究中，对 QRNN 的检索性能进行了描述，并将其与其他最先进的检索方法进行了比较。提出了一种合成检索场景，并将其用作 QRNN 应用于贝叶斯检索问题的验证案例。根据马尔可夫链蒙特卡罗模拟和另一种基于蒙特卡罗积分的贝叶斯方法对 QRNN 检索性能进行了评估，该方法基于检索数据库。该场景还用于研究不同的超参数配置和训练集大小如何影响检索性能。在研究的第二部分中，QRNN 被应用于从中分辨率成像光谱仪 (MODIS) 的观测结果中检索云顶压力。结果表明，QRNN 不仅能够实现与标准神经网络检索相似的精度，而且还能为非高斯检索误差提供统计上一致的不确定性估计。这项研究的结果表明，QRNN 能够将机器学习方法的灵活性和计算效率与贝叶斯框架理论上合理的不确定性处理相结合。与本文一起，QRNN 的 Python 实现通过公共存储库发布，以便科学界可以使用该方法。

作者：Pfreundschuh, Simon, et al. 
论文：A neural network approach to estimating a posteriori distributions of Bayesian retrieval problems.
出版：Atmospheric Measurement Techniques 
地址：https://amt.copernicus.org/articles/11/4627/2018

关注微信公众号，获得更多资讯。
在这里插入图片描述

1 简介

从遥感测量中反演大气量是一个逆问题，通常无法给出唯一、精确的解。测量和建模误差以及观测系统有限的灵敏度使得无法为给定的观测分配单一、离散的解。因此，有意义的反演应该由反演值和不确定性估计组成，不确定性估计描述了可能产生与观测值相似的测量值的一系列值。然而，即使反演方法允许对反演不确定性进行明确建模，它们的计算和表示通常也只能以近似的方式进行。

贝叶斯框架提供了一种处理检索问题的不适定性及其相关不确定性的正式方法。在贝叶斯公式( Rodgers , 2000 )中，逆问题的解由后验分布p ( x | y )给出，即给定观测值y时检索量x的条件分布。根据建模假设，后验分布表示测量后关于检索量x的所有可用知识，考虑了所有考虑的检索不确定性。贝叶斯定理指出，后验分布与先验分布p ( x )与观察到的测量值的条件概率p ( y | x )的乘积p ( y | x )成比例。先验分布 p ( x )表示测量前关于量x的知识，可用于通过补充信息辅助检索。

对于给定的检索，后验分布通常不能用封闭形式表示，并且已经开发出不同的方法来计算它的近似值。在允许足够精确和有效地模拟测量的情况下，可以使用正向模型来指导逆问题的解决。如果有这样的正向模型，计算后验分布的最通用技术是马尔可夫链蒙特卡罗 (MCMC) 模拟。MCMC 表示一组迭代生成样本序列的方法，其采样分布近似于真实的后验分布。MCMC 模拟的优点是允许估计后验分布，而无需对先验知识、测量误差或正向模型做出任何简化假设。MCMC 模拟的缺点是每次检索都需要大量的正向模型评估，这在许多情况下使得该方法在计算上过于苛刻而无法实用。因此，对于遥感反演而言，该方法更适合于测试和验证（Tamminen 和 Kyrölä， 2001），例如 Evans 等人（2012）开发的反演算法。

Kummerow 等人（1996 年）提出了一种避免在检索过程中进行昂贵的前向模型评估的方法。该方法基于检索数据库中重要性加权样本的蒙特卡罗积分，它由观测值对y i和相应的检索量值x i组成。以下将该方法称为贝叶斯蒙特卡罗积分（BMCI）。尽管该方法比在检索过程中涉及正向模型计算的方法所需的计算量要小，但它可能需要遍历可能很大的检索数据库。此外，加入辅助数据来辅助检索需要对检索数据库进行仔细的分层，就像在用于检索降水剖面的 Goddard 剖面算法（Kummerow 等人， 2015）中所做的那样。该方法的更多应用可以在Rydberg 等人（2009）或Evans 等人（2012）的研究中找到。

最优估计方法（Rodgers， 2000），简称 OEM（也称为 1D-Var，代表一维变分检索），它简化了贝叶斯检索问题，假设先验知识和测量不确定性都遵循高斯分布，而正向模型仅具有中等程度的非线性。在这些假设下，后验分布近似为高斯分布。在这种情况下，检索到的值是后验分布的平均值和最大值，它们与高斯分布重合，以及描述后验分布宽度的协方差矩阵。在存在用于计算模拟测量值和相应雅可比矩阵的有效正向模型的情况下，OEM 已成为贝叶斯检索的准标准方法。然而，即使忽略高斯先验假设的有效性和测量误差以及正向模型的线性，该方法也不适用于涉及复杂辐射过程的反演。特别是，由于 OEM 需要计算正向模型的雅可比矩阵，因此在反演过程中在线建模诸如表面或云散射之类的过程变得过于昂贵。

与上面讨论的贝叶斯检索方法相比，机器学习提供了一种更灵活的方法，可以直接从数据中学习计算效率高的检索映射。从模拟、共置观测或现场测量中获得的大量数据，以及不断提高的计算能力以加快训练速度，使机器学习技术成为基于（贝叶斯）逆建模的方法的有吸引力的替代方案。在最近的文献中可以找到机器学习回归方法在检索问题中的大量应用（Brath 等人， 2018 年；Holl 等人， 2014 年；Håkansson 等人， 2018 年；Jiménez 等人， 2003 年；Strandgren 等人， 2017 年；Wang 等人， 2017 年）。然而，所有这些例子都忽略了逆问题的概率特性，而只提供了检索的标量估计。这些检索中的不确定性估计以基于独立测试数据计算的平均误差的形式提供，与贝叶斯方法相比，这是一个明显的缺点。一个值得注意的例外是Aires 等人( 2004 )的工作，他们应用贝叶斯框架来估计由于学习到的神经网络参数的不确定性而导致的检索量的误差。然而，与上面列出的方法唯一的区别是，从训练数据上观察到的误差协方差矩阵估计的检索误差会根据网络参数的不确定性进行校正。因此，对于内在的检索不确定性，该方法也受到同样的限制。此外，所需数值运算的复杂性使其仅适用于小型训练集和简单网络。

本文提出了分位数回归神经网络 (QRNN) 作为一种使用神经网络估计遥感检索的后验分布的方法。分位数回归最初由Koenker 和 Bassett Jr. ( 1978 )提出，是一种将统计模型拟合到条件概率分布的分位数函数的方法。使用神经网络( Cannon , 2011 )和其他机器学习方法( Meinshausen , 2006 )的分位数回归应用已经存在，但据作者所知，这是 QRNN 首次应用于遥感检索。这项工作的目的是将机器学习方法的灵活性和计算效率与贝叶斯框架中理论上合理的不确定性处理相结合。

第 2节提供了 QRNN 的正式描述以及将根据其进行评估的检索方法。第 3节使用模拟检索场景来验证针对 BMCI 和 MCMC 的方法。第4节介绍了 QRNN 在从卫星观测中检索云顶压力和相关不确定性方面的应用可见光和红外。最后，本研究得出的结论在第5节中给出。

2 方法

本节介绍贝叶斯检索公式和后续实验中使用的检索方法。介绍了两种贝叶斯方法，即马尔可夫链蒙特卡罗模拟和贝叶斯蒙特卡罗积分。介绍了分位数回归神经网络作为一种机器学习方法，用于估计贝叶斯检索问题的后验分布。本节最后讨论了用于比较这些方法的统计指标。

2.1 检索问题

这里考虑的一般问题是从以观测向量y ∈R m形式给出的间接测量中检索标量x ∈R 。在贝叶斯框架中，检索问题被表述为在给定测量值y的情况下找到数量x的后验分布p ( x | y )。正式地，可以通过应用贝叶斯定理获得该解决方案：
在这里插入图片描述
先验分布p ( x )表示在测量之前可获得的有关数量x的知识。引入检索公式的先验知识使不适定的逆问题正规化，并确保检索解具有物理意义。标量检索量x的后验分布可以用相应的累积分布函数 (CDF) F x | y ( x )表示，其定义为
在这里插入图片描述

2.2 贝叶斯检索方法

贝叶斯检索方法是使用公式 ( 1 ) 中的后验分布表达式来计算检索问题的解决方案的方法。由于后验分布通常无法直接计算或采样，因此这些方法以不同程度的准确度近似后验分布。

2.2.1 马尔可夫链蒙特卡洛

MCMC 模拟表示一组从任意后验分布p ( x | y )生成样本的方法。一般原则是从近似分布中计算样本，并对其进行细化，使其分布收敛到真实的后验分布( Gelman 等人， 2013 )。在本研究中，使用 Metropolis 算法来实现 MCMC。Metropolis 算法迭代生成一系列状态使用对称提议分布在算法的每一步中，都会从中采样生成下一步的提案x *. 所提出的状态x *被接受为下一个模拟步骤x t，概率为否则， x *被拒绝，并且当前模拟步骤x t −1被保留用于x t。如果提议分布是对称的，并且由其生成的样本满足具有唯一平稳分布的马尔可夫链性质，因此 Metropolis 算法保证产生收敛到真实后验分布的样本分布。

2.2.2 贝叶斯蒙特卡罗积分

BMCI 方法基于使用重要性抽样来近似给定检索案例的后验分布的积分。考虑以下形式的积分

应用贝叶斯定理，积分可以写成
在这里插入图片描述
最后一个积分可以通过对观测数据库求和来近似根据先验分布p ( x )进行分布：

归一化因子C定义为权重w_i( y )由基于数据库测量值y i 的观测测量值y的概率p ( y | y_i )给出，通常假设其为具有协方差矩阵So的多元高斯分布：
在这里插入图片描述

通过近似方程（3）的积分，可以选择f ( x )= x和来估计后验分布的期望值和方差分别表示。虽然这适合表示高斯分布，但可以通过估计相应的 CDF（参见公式 2）来获得后验分布的更一般表示，方法是使用在这里插入图片描述

2.3 机器学习

忽略不确定性，从测量向量y中检索数量x可以看作是一个简单的多元回归任务。在机器学习中，回归问题通常通过训练参数化模型来解决根据给定的输入x预测期望的输出 y。不幸的是，变量 x和y在机器学习中的用法与它们在逆理论中的用法正好相反。在本节的其余部分，变量x 和y将分别用于表示机器学习模型的输入和输出，以确保与机器学习领域的通用符号一致。读者必须记住，该方法在后面的部分中用于根据测量值y预测检索量x。

2.3.1 监督学习和损失函数

机器学习回归模型采用监督训练，其中模型f从训练集中学习回归映射具有输入值x i和预期输出值y i。训练是通过找到最小化训练集上给定损失函数ℒ( f ( x ), y )的平均值的模型参数来执行的。回归任务最常见的损失函数是平方误差损失
在这里插入图片描述

它训练模型f以最小化神经网络预测f ( x )与训练集上的预期输出y之间的均方距离。如果估计量y是从条件概率分布p ( y | x )中抽取的随机向量，则使用平方误差损失函数训练的回归量将学习预测分布p ( y | x ) 的条件期望值( Bishop , 2006 ) 。根据损失函数的选择，回归量还可以学习从训练数据中预测分布p ( y | x )的其他统计数据。

2.3.2分位数回归

给定概率分布 p的累积分布函数F ( x )，其第τ分位数x τ定义为
在这里插入图片描述
即F ( x )≥ τ的所有x 值的最大下界。如Koenker ( 2005 )所示，F的第τ分位数x τ最小化期望值函数

通过训练机器学习回归器f来最小化训练集上的分位数损失函数ℒ τ ( f ( x ), y )的平均值，回归器学习预测条件分布p ( y | x )的分位数。这可以扩展到通过训练网络估计p ( y | x )的多个分位数来获得F y | x ( y )的累积分布函数的近似值。

2.3.3神经网络

神经网络根据输入激活向量 x 计算输出激活向量y 。前馈人工神经网络 (ANN)通过对输入激活向量x应用给定数量的后续可学习变换来计算向量y：
在这里插入图片描述
激活函数f i以及隐藏层的数量和大小是神经网络模型的规定结构参数，一般称为超参数。模型可学习的参数是每层的权重矩阵W i和偏差向量θ i 。神经网络可以通过使用基于梯度的最小化方法找到合适的权重W i 和偏差向量θ i ，以监督的方式高效地训练。利用分位数损失函数ℒ τ的均值作为训练标准，可以训练神经网络预测分布p ( y | x )的分位数，从而将网络转变为分位数回归神经网络。

2.3.4对抗训练

对抗训练是一种数据增强技术，旨在提高神经网络对输入数据扰动的鲁棒性（Goodfellow 等人， 2014 年）。事实证明，它也是改善神经网络概率预测校准的有效方法（Lakshminarayanan 等人， 2016 年）。对抗训练的基本原理是用可能导致网络预测发生较大变化的扰动样本来增强训练数据。这里用于实现对抗训练的方法是Goodfellow 等人（2014 年）提出的快速梯度符号法。对于由输入x i ∈R n和预期输出 y i ∈R m 组成的训练样本( x i , y i )，相应的对抗样本被选为
在这里插入图片描述

即，扰动的方向选择为使得损失函数ℒ的绝对变化最大化，这是由于输入参数的无穷小变化所致。对抗扰动因子δ adv决定了扰动的强度，并成为神经网络模型的附加超参数。

2.4评估概率预测

剩下的问题是如何比较两个估计值给定后验分布与来自真实分布p ( x | y )的单个观测样本x 的比较。对值x的良好概率预测应该是敏锐的，即集中在x附近，但同时又应经过良好的校准，即预测概率能够真实反映观察到的频率（Gneiting 等人， 2005 年）。用于评估预测条件分布的汇总指标称为评分规则（Gneiting 和 Raftery， 2007 年）。评分规则的一个重要属性是恰当性，它将评分规则的概念形式化，既奖励预测的敏锐性，也奖励预测的校准性。除了为概率预测的比较提供可靠的衡量标准之外，适当的评分规则还可用作监督学习中的损失函数，以激励统计上一致的预测。

公式 ( 7 ) 中给出的分位数损失函数是分位数估计的适当评分规则，因此可用于比较不同分位数估计方法的技巧（Gneiting 和 Raftery， 2007）。另一个用于评估估计累积分布函数F对观测值x的适当评分规则是连续排序概率得分 (CRPS)：
在这里插入图片描述
这里，是当条件满足时等于 1 的指示函数为真，否则为0。对于本文中使用的方法，积分只能近似计算。第 3.1.3和 3.1.4节详细介绍了每种方法的具体计算方法。

上面提出的评分规则根据单个观察值评估概率预测。但是，由于 MCMC 模拟可用于将真实后验分布近似为任意精度，因此可以从 BMCI 和 QRNN 获得的概率预测与使用 MCMC 获得的后验分布直接进行比较。在 MCMC 模拟所依据的建模假设为真的理想情况下，从 MCMC 获得的采样分布将收敛到真实后验，并且可以用作评估从其他方法获得的预测的基本事实。

2.4.1校准图

校准图是一种图形方法，用于评估概率预测得出的预测区间的校准。对于一组具有概率的预测区间，将真实值位于区间范围内的案例比例与值p绘制在一起。如果预测经过良好校准，概率p就会与观察到的频率相匹配，并且校准曲线接近对角线y = x 。图1给出了三个不同预测因子的校准图示例。与上面描述的评分规则相比，校准曲线的优势在于它们可以指示预测区间是太窄还是太宽。高估不确定性的预测会产生过宽的区间，并导致校准曲线位于对角线上方，而低估不确定性的观测将产生位于对角线下方的校准曲线。
在这里插入图片描述

图 1校准图示例，显示过于自信的预测（深灰色）、校准良好的预测（红色）和过于谨慎的预测（蓝色）的校准曲线。

3 应用于合成检索案例

本节使用被动微波观测的柱状水汽 (CWV) 模拟反演来对 BMCI 和 QRNN 的性能与 MCMC 模拟进行基准测试。反演案例的设置提供了一个理想化但现实的场景，其中可以使用 MCMC 模拟来近似真实的后验分布。因此，MCMC 结果可用作研究 QRNN 和 BMCI 反演性能的参考。此外，还研究了不同超参数对 QRNN 性能的影响，以及训练集和反演数据库的大小如何影响 QRNN 和 BMCI 的性能。

3.1 检索

在本实验中，我们考虑从海洋上的被动微波观测中检索 CWV。大气的浓度分布由10 3至 10 hPa之间 15 个气压水平上的温度和水蒸气浓度曲线表示。这些量的变化是根据2016 年ECMWF ERA-Interim 数据（Dee et al.， 2011）估算的，范围限制在北纬23度至66度之间。通过对温度和水蒸气浓度对数进行联合多元正态分布拟合，获得了温度和水蒸气多元分布的参数化。拟合的分布代表了模拟所基于的先验知识。

3.1.1正向模型模拟

大气辐射传输模拟器 (ARTS; Buehler 等人， 2018 ) 用于模拟从先验分布中采样的大气状态的卫星观测。观测包括ATMS 传感器的五个通道（23、88、165 和 183 GHz 左右）的模拟亮度温度（参见表 1 ）。
在这里插入图片描述
模拟仅考虑了水蒸气的吸收和发射。海洋表面发射率使用 FASTEM-6 模型（Kazumori 和 English， 2015）计算，假设表面风速为零。假设海面温度等于最接近海面气压水平的温度，但不低于 270 K。传感器特性和吸收线取自 ARTS XML 数据包中提供的 ATMS 传感器描述。模拟针对天底传感器进行，忽略极化。观测不确定性被认为是独立的高斯噪声，标准差为 1 K。

3.1.2 MCMC 实现

MCMC 检索基于 Metropolis 算法的 Python 实现（Gelman 等人， 2013 年），该算法是在本研究背景下开发的。它作为typhon：大气研究工具软件包的一部分发布（typhon 作者， 2018 年）。

MCMC 反演是在由温度曲线和水蒸气浓度对数描述的大气状态空间中进行的。通过拟合 ERA-Interim 数据获得的多元高斯分布被用作先验分布。随机游走被用作提议分布，其协方差矩阵被用作先验协方差矩阵。单个 MCMC 反演包含八次独立运行，使用从先验分布中采样的不同随机状态进行初始化。每次运行都从预热阶段开始，然后是自适应阶段，在此期间提议分布的协方差矩阵会自适应缩放，以使提议状态的接受率接近最佳的 21% （Gelman 等人， 2013 年）。接下来是生产阶段，在此期间生成 5000 个后验分布样本。为了降低结果状态之间的相关性，只保留 20 个生成样本中的 1 个。通过计算比例缩小因子来检查每次模拟的收敛性和有效独立样本数。只有当尺度缩减因子小于1.1且有效样本量大于100时，反演结果才可接受。每次MCMC反演都会生成一系列大气状态，通过对水汽浓度剖面进行积分可以得到柱状水汽。然后将观测到的CWV值分布作为反演的后验分布。

3.1.3 QRNN 实现

分位数回归神经网络的实现基于深度学习的 Keras Python 包（Chollet 等， 2015）。它也作为 typhon 包的一部分发布。

对于分位数回归神经网络的训练，已经实现了分位数损失函数ℒ τ ( x τ , x )，因此它可以用作 Keras 框架内的训练损失函数。该函数可以用分位数分数序列初始化让神经网络学习预测相应的分位数。

自定义数据生成器已添加到实现中，以将测量不确定性信息纳入训练过程。如果训练数据无噪声，则可以使用数据生成器根据测量不确定性的假设向每个训练批次添加噪声。噪声在数据传递到神经网络之前立即添加，保持原始训练数据无噪声。这确保网络在训练期间不会两次看到相同的噪声训练样本，从而抵消过度拟合。

神经网络训练采用自适应形式的随机批量梯度下降。在训练期间，监控验证集上的损失。当验证集上的损失在一定数量的时期内没有减少时，训练率将按给定的减少因子降低。当达到预定义的最小学习率时，训练停止。

通过使用分位数作为分段线性近似的节点并扩展第一个和最后一个分位数，可以从估计的分位数重建 CDF分别将输出分段为 0 和 1。此近似值还用于计算测试数据的 CRPS。

3.1.4 BMCI实施

BMCI 方法同样已在 Python 中实现并添加到 typhon 包中。除了检索后验分布的前两个矩之外，该实现还提供了使用公式 ( 4 ) 检索后验 CDF 的功能。通过在所需分位数处插入逆 CDF 来计算近似后验分位数。为了计算给定检索的 CRPS，使用梯形规则对检索数据库中的值x i进行积分。

3.2 QRNN模型选择
与普通神经网络一样，QRNN 也有几个超参数，这些超参数无法直接从数据中学习，而需要独立调整。本研究调查了 QRNN 性能对其超参数的依赖性。本文包含这些结果，因为它们可能对 QRNN 的未来应用有帮助。

为了进行此分析，描述 QRNN 模型结构的超参数与训练参数分开研究。描述 QRNN 结构的超参数包括

3.2.1结构参数

为了研究超参数 1-3 对 QRNN 性能的影响，对由10 6个样本组成的训练集进行了 10 倍交叉验证，以估计不同超参数配置的性能。作为性能指标，验证集上的平均分位数损失对所有预测分位数取平均值被使用。在配置空间的子空间上执行网格搜索以找到最佳参数。分析结果显示在图 2中。对于所考虑的配置，层宽对性能的影响最为显著。尽管如此，将层宽增加到 64 个神经元以上的值只能获得很小的性能提升。另一个普遍的观察结果是，具有三个隐藏层的网络通常优于具有较少隐藏层的网络。使用整流线性单元 (ReLU) 激活函数的网络不仅比使用 tanh 或 sigmoid 激活函数的网络实现更好的性能，而且显示出明显更低的可变性。基于这些结果，选择了具有三个隐藏层、每层 128 个神经元和 ReLU 激活函数的神经网络与 BMCI 进行比较。

3.2.2训练参数

为了优化训练参数 4-7，我们进行了非常粗略的网格搜索，每个参数仅使用三个不同的值。总体而言，与结构参数相比，训练参数对 QRNN 性能的影响很小（这里考虑的组合的影响小于 2 %）。最佳互相关性能是在慢速训练中获得的，学习率降低因子较小，为1.5 ，并且仅在10 个训练周期后降低学习率，而验证损失没有减少。当学习率最小值低于10 −4时，性能没有显著提升。关于批次大小，批次大小为 128 个样本时获得了最佳结果。

3.3与 MCMC 的比较

本节分析了单个 QRNN 和 10 个 QRNN 的集合的性能。集合的预测是通过对集合中每个网络的预测取平均值而获得的。本节中的所有测试均针对单个 QRNN、QRNN 集合和 BMCI 执行。本实验中用于 BMCI 和 QRNN 训练的检索数据库由10 6 个条目组成。

图 3显示了八个示例案例的检索结果。案例的选择基于 Kolmogorov-Smirnov (KS) 统计量，该统计量对应于通过 MCMC 模拟获得的预测 CDF 与参考 CDF 的最大绝对偏差。KS 值较小表示对真实 CDF 的预测良好，而 KS 值较高表示预测与参考 CDF 之间的偏差较大。所示案例对应于使用 BMCI 或单个 QRNN 获得的 KS 值分布的第 10、50、90 和 99 个百分位数。通过这种方式，它们提供了方法性能的定性概述。

在显示的案例中，两种方法通常都能成功预测后验分布。只有对于KS 值分布的第99个百分位数，BMCI 预测才显示出与参考值的显著偏差分布。估计的后验 CDF 中的跳跃表明偏差是由于检索数据库中输入空间的欠采样造成的。这导致归因于接近观察值的少数条目的权重过高。对于这种特定情况，即使两个预测都基于相同的数据，QRNN 也能提供更好的后验 CDF 估计。

3.4训练集大小的影响

最后，我们研究了用于训练 QRNN（或作为 BMCI 的检索数据库）的训练数据集的大小如何影响检索方法的性能。这是通过从原始训练数据中随机生成训练子集来实现的，其大小以对数形式分布在10 3 和10 6个样本之间。对于每种大小，我们生成了五个随机训练子集，并将它们用于使用单个 QRNN 和 BMCI 检索测试数据。作为测试数据，我们使用了一个由10 5 个模拟观测向量和相应的 CWV 值组成的单独测试集。
在这里插入图片描述

图 6使用不同大小的训练集和检索数据库，QRNN（红色）和 BMCI（蓝色）在测试集上实现的MAPE （a）和 CRPS（b）。对于每种大小，生成原始训练数据的五个随机子集。线条显示观测值的平均值。阴影表示平均值周围的± σ范围。

图 6显示了两种方法在不同大小的训练集上实现的平均绝对百分比误差 (MAPE，面板 a) 和平均 CRPS (面板 b) 的平均值。为了计算 MAPE，CWV 预测被视为使用 QRNN 或 BMCI 获得的估计后验分布的中位数。该值与模拟中使用的大气状态相对应的真实 CWV 值进行比较。正如预期的那样，两种方法的性能都会随着训练集规模的增加而提高。就 MAPE 而言，当训练集大小为10 6时，两种方法的表现同样出色，但对于所有较小的训练集大小，QRNN 的表现都优于 BMCI。对于 CRPS，观察到了类似的行为。这些结果是令人放心的，因为它们表明，不仅预测的准确性（由 MAPE 和 CRPS 衡量）随着训练数据量的增加而提高，而且它们的校准也提高了（仅由 CRPS 衡量）。
4使用 QRNN 从 MODIS 中检索云顶气压
在本节中，QRNN 用于使用中分辨率成像光谱仪 (MODIS； Platnick 等人， 2003 ) 的观测数据来检索云顶压力 (CTP)。该实验基于Håkansson 等人( 2018 )的工作，他们开发了 NN-CTTH 算法，这是一种基于神经网络的云顶压力检索算法。将基于 QRNN 的 CTP 检索与 NN-CTTH 算法进行了比较，并研究了如何使用 QRNN 来估计检索不确定性。

4.1数据

QRNN 使用与参考 NN-CTTH 算法相同的数据进行训练。数据集包括 MODIS 1B 级数据（MODIS Characterization Support Team， 2015 a、b）以及从 CALIOP（正交极化云气溶胶激光雷达；Winker 等人， 2009）获得的云特性。CALIOP 数据的顶层气压变量用作检索目标。数据取自 2010 年 24 天（每月 1 号和 14 号）的所有轨道。在Håkansson 等人（2018）的论文中，使用来自不同 MODIS 通道和辅助 NWP 数据的不同输入特征组合训练多个神经网络，以比较不同输入的检索性能。在Håkansson 等人的论文中提出的不同神经网络配置中，（2018 年），NN-AVHRR 版本（NN-CTTH 算法的开发版本，仅使用高级甚高分辨率辐射计 (AVHRR) 提供的通道）用于与 QRNN 进行比较。此版本仅使用 MODIS 的 11 和 12 µm通道。除了单像素输入外，输入特征还包括结构信息，以各种统计数据的形式计算在中心像素周围的5×5邻域上。提供给网络的辅助数值天气预报 (NWP) 数据包括表面压力和温度，五个压力水平下的温度和柱积分水蒸气。这些也是用于训练 QRNN 的输入特征。用于 QRNN 的训练数据是来自Håkansson 等人( 2018 )的训练和训练期间验证集。与 NN-CTTH 算法的 NN-AVHRR 版本的比较使用来自Håkansson 等人( 2018 )正在开发的测试数据集。

4.2训练

QRNN 的训练采用与第3.1.3节中所述相同的训练方案。使用Håkansson 等人（2018年）的训练期间验证数据集监控训练进度，根据进度降低学习率或中止训练。在对宽度、深度和小批量大小执行网格搜索（未显示结果）后，验证集上的最佳性能来自具有四层、每层 64 个神经元、ReLU 激活函数和 128 个样本批量大小的网络。
在这里插入图片描述
与上一节中的实验相比，训练过程的主要区别在于如何纳入测量不确定性。对于模拟检索，训练数据是无噪声的，因此可以根据传感器特性通过添加噪声来真实地表示测量不确定性。MODIS 观测并非如此；相反，这里使用对抗训练来确保良好校准的预测。对于扰动参数 δ adv的调整（参见第2.3.4节），使用校准图监控训练期间验证集上的校准。理想情况下，最好使用单独的数据集来调整此参数，但在这种情况下，这足以在测试数据上取得良好的结果。使用不同δ adv值获得的校准曲线如图8所示。从图中可以看出，如果没有对抗训练（δadv =0 ），从 QRNN 获得的预测过于自信，导致预测区间无法充分代表检索中的不确定性。由于对抗训练可以被视为一种表示训练数据中的观测不确定性，δ adv值越大，预测越不可信。根据这些结果，选择δ adv =0.05进行训练。

除了使用对抗性训练外，QRNN 的底层网络结构和训练过程与 NN-CTTH 检索中使用的结构非常相似。QRNN 使用四个隐藏层而不是两个隐藏层，每个隐藏层有 64 个神经元，而不是第一层有 30 个神经元，第二层有 15 个神经元。虽然这使得 QRNN 中使用的神经网络略微复杂，但这不应该是一个主要缺点，因为计算性能对于神经网络检索通常并不重要。

4.3预测精度

大多数数据分析可能需要云顶压力的单一预测值。要从 QRNN 预测中得出点值，可使用估计的后验分布的中位数。

图 9显示了测试开发数据集上产生的中值压力分布以及从 NN-CTTH 算法检索到的压力值。这些分布分别针对低云、中云和高云（由 CALIOP 特征分类标志分类）以及完整数据集显示。从这些结果可以看出，对于低云，QRNN 预测的值在大气低处有更强的峰值，对于高云，QRNN 预测的值在大气高处有更强的峰值。对于中云，峰值比 NN-CTTH 算法检索到的值更分散，大气低处和高处的尾部更重。

图 10显示了在开发期间测试数据集上预测的 CTP 值的误差分布，同样按云类型和完整数据集进行区分。简单 QRNN 和 QRNN 集合在低云和高云方面的表现都略优于 NN-CTTH 算法。对于中等云，方法的性能没有显著差异。QRNN 集合似乎略微提高了单个 QRNN 的预测精度，但差异可能可以忽略不计。与 QRNN 结果相比，NN-CTTH 预测的 CTP 在低云方面偏低，在高云方面偏高。

尽管 QRNN 和 NN-CTTH 检索都使用相同的输入和训练数据，但两种检索的预测结果却大不相同。使用贝叶斯框架，这很可能可以通过以下事实来解释：两种检索估计了后验分布的不同统计数据。NN-CTTH 算法已使用平方误差损失函数进行训练，这将使算法预测后验分布的平均值。另一方面，QRNN 检索预测后验分布的中位数。由于中位数最小化了预期绝对误差，因此预计 QRNN 预测的 CTP 值会产生总体较小的误差。

4.4不确定性估计

NN-CTTH 算法检索 CTP，但不提供特定案例的不确定性估计。相反，不确定性估计以测试集上观察到的平均绝对误差 (MAE) 的形式提供。为了将这些不确定性估计与使用 QRNN 获得的不确定性估计进行比较，根据观察到的 MAE 和均方误差 (MSE) 将高斯误差分布拟合到观察到的误差。这里选择高斯误差模型，因为它可以说是用于表示随机误差的最常见分布。
在这里插入图片描述

图 11预测和观测到的误差分布。面板(a) 显示了 NN-CTTH 检索的观测到的误差以及基于 MAE 和 MSE 拟合到观测到的误差分布的高斯误差分布。面板(b) 显示了单个 QRNN 的观测到的测试集误差以及作为预测后验分布的随机样本与中位数的偏差而获得的预测误差。面板©显示了 QRNN 集合的相同内容。

图11的面板 a 显示了在开发期间测试数据集上观察到的误差和拟合的高斯误差分布的图。拟合的误差曲线对应于高斯概率密度函数，其 MAE 和 MSE 与在测试数据上观察到的相同。面板 b 显示观察到的误差以及从单个 QRNN 获得的预测误差。预测误差计算为估计的后验分布的随机样本与其中位数的偏差。拟合的高斯误差分布显然不能很好地拟合观察到的误差。另一方面，从 QRNN 后验分布获得的预测误差与观察到的误差具有良好的一致性。这表明 QRNN 成功学会了预测检索不确定性。此外，结果表明，QRNN 集合实际上比单个 QRNN 对观察到的误差的拟合略差。因此，QRNN 集合不一定能改善预测的校准。

基于 MAE 拟合的高斯误差模型也已用于生成从 NN-CTTH 算法获得的 CTP 值的预测区间。图 12显示了 NN-CTTH 算法、简单 QRNN 和 QRNN 集合的校准曲线。结果支持以下发现：单个 QRNN 能够提供后验分布的经过良好校准的概率预测。集合预测的校准曲线与单个网络的校准曲线几乎相同。使用高斯拟合的 NN-CTTH 预测校准效果不佳，并且往往提供对于p =0.1、0.3、0.5和 0.7 过宽的预测区间，但对于p =0.9过窄的区间。

图 11预测和观测到的误差分布。面板(a) 显示了 NN-CTTH 检索的观测到的误差以及基于 MAE 和 MSE 拟合到观测到的误差分布的高斯误差分布。面板(b) 显示了单个 QRNN 的观测到的测试集误差以及作为预测后验分布的随机样本与中位数的偏差而获得的预测误差。面板©显示了 QRNN 集合的相同内容。

4.5对先验分布的敏感性

如上所示，从 QRNN 获得的预测在统计上是一致的，即当应用于测试数据时，它们预测的概率与观察到的频率相匹配。然而，这要求测试数据在统计上与训练数据一致。统计上一致在这里意味着两个数据集来自相同的生成分布，或者用更贝叶斯的术语来说，相同的先验分布。当情况并非如此时，在计算不同云类型的校准时可以看到会发生什么。图 13显示了分别针对低云、中云和高云计算的校准曲线。从图中可以看出，QRNN 预测不再同样校准。从贝叶斯的角度来看，这并不奇怪，因为中云的 CTP 值与所有云类型的 CTP 值相比具有明显不同的先验分布，从而产生不同的后验分布。

对于 NN-CTTH 算法，结果看起来有所不同。虽然对于低云，校准会恶化，但对于高云，校准甚至会略有改善。这并不奇怪，因为高斯拟合可能更适合测试数据的不同子集。

5 结论

本文提出了分位数回归神经网络作为估计贝叶斯遥感检索后验分布的方法。它们已应用于两次标量大气变量检索。事实证明，QRNN 能够提供准确且经过良好校准的概率预测，与检索问题的贝叶斯公式一致。

第 3节中介绍的合成检索案例表明，QRNN 学习到的条件分布与直接基于贝叶斯公式的方法获得的贝叶斯后验分布相同。这本身似乎值得注意，因为它揭示了隐含表示先验知识的训练集统计数据的重要性。在合成数据集上，QRNN 的表现与 BMCI 相当，甚至在小数据集上表现更好。这表明它们能够比 BMCI 更好地处理“维数灾难” （Friedman 等人， 2001），这将使它们更适合应用于高维测量空间的检索问题。

虽然本文尚未研究 BMCI 方法的计算性能优化，但至少与 BMCI 的简单实现相比，QRNN 的检索速度至少提高了 1 个数量级。QRNN 检索可以轻松并行化，并且所有现代计算架构都可以使用硬件优化的实现，因此开箱即用，性能非常好。

基于这些非常有希望的结果，该研究的下一步应该是在真实检索案例中比较 QRNN 和 BMCI，以调查模拟结果是否适用于现实世界。如果是这样，那么使用 QRNN 可以显著降低操作检索的计算成本，甚至可能实现更好的检索性能。

https://www.atmos-meas-tech.net/11/4627/2018/amt-11-4627-2018-f13
图 13针对特定云类型对从 NN-CTTH（蓝色）和单个 QRNN（红色）获得的预测区间进行校准。

结论

在本文介绍的第二个检索应用中，QRNN 已用于从 MODIS 观测中检索云顶压力。结果表明，QRNN 不仅能够提高最先进的检索精度，而且还能够学习预测检索不确定性。QRNN 能够提供统计上一致的、针对具体案例的不确定性估计，这应该使其成为非概率神经网络检索的一个非常有趣的替代方案。尽管如此，QRNN 方法对先验假设的敏感性也得到了证明。QRNN 学习到的后验分布取决于训练数据中编码的先验假设的有效性。具体而言，只有当检索到的观测值遵循与训练数据相同的分布时，才能期望获得准确的不确定性估计。然而，这是所有经验方法固有的局限性。

这里介绍的第二个应用案例展示了 QRNN 表示非高斯检索误差的能力。虽然如本研究所示，BMCI 也是如此（等式 4），但在实践中通常只估计后验分布的平均值和标准差。此外，实现通常假设高斯测量误差，如果检索数据库中的观测值包含建模误差，则这种假设不太可能实现。由于不需要对所涉及的不确定性做出任何假设，QRNN 可能提供一种更合适的方式来表示（非高斯）检索不确定性。

贝叶斯框架在神经网络检索中的应用为未来研究中可以进行的许多有趣应用打开了大门。例如，研究先验信息是否可以与检索到的测量值中包含的信息分开将会很有趣。这将有可能消除概率预测对先验假设的依赖，而这目前可以被认为是该方法的局限性。此外，根据Rodgers ( 2000 )概述的方法，可以使用从 QRNN 获得的估计后验分布来估计检索中的信息内容。

本研究仅考虑了标量检索。QRNN 在遥感检索中的应用还有待研究的另一个方面是如何使用它们来检索矢量值检索量，例如大气气体或粒子的浓度分布。虽然推广到边际、多元分位数应该很简单，但目前尚不清楚是否可以使用 QRNN 获得联合后验分布的分位数轮廓的更好近似值。