2024年3月发表
主要内容:(1) 描述了深度学习可以帮助解决的水质科学挑战;(2) 回顾深度学习在水质预测中的机会,特别是在解决数据稀缺和培养新知识方面;(3) 引入新兴工具,例如过程引导深度学习 (PGDL)、可微分建模 (DM) 和可解释深度学习(XDL) 方法; 4) 为水质预测的未来提供前瞻性视角。
知识补充
深度学习包括: recurrent neural network (RNN), convolutional neural network (CNN), autoencoder, long short-term memory (LSTM), deep belief network (DBN), gated recurrent unit (GRU), generative adversarial network (GAN) and transformer.
不同方法特征:CNN 非常适合处理图像数据等空间分析任务,而 RNN、LSTM、GRU 和 transformer 更适合时间序列预测等顺序任务。DBN 可用于特征提取,例如,识别水体或水质模式之间的共性。transformer和GAN可以生成逼真的复杂数据,如图像和参数图,还可以自动检测异常情况,例如供水管网中的污染事件。
关于水质的深度学习出版物滞后了几年,到2021年和2022年,与水文学出版物相比,分别有五分之一和四分之一的出版物,尽管部分差异可能源于群落规模的差异。GEMStat等水质数据库的出现159, 全球河流化学 (GLORICH) 数据库160, 地表水化学 (SWatCh) 数据库161, 全球河流水质档案馆 (GRQA)137和骆驼化学162同样可以加速深度学习在水质中的应用。
水质面临的长期挑战
1.数据稀缺的挑战
对于测量最丰富的TSS,全球平均值也仅限于每个台站29个数据计数,有数据的天数为1.1%,记录持续时间为4.2年。数据可用性具有高度异质性:全球约83%的TSS数据来自17%的采样河流,主要在北美。其他变量的覆盖率甚至更低
2.模型预测的挑战
线性统计方法通常受到驱动因素、焦点变量的浓度或负荷之间线性和/或稳态关系的假设的限制,因此无法模拟不断变化的动态和预测未来的水质状况。
其他非 ML 统计模型同样具有有限的灵活性和对变化条件的适应性。当这些关系发生变化并取决于未建模的因素时,这些估计可能会受到影响。
传统的 ML 模型通常需要手动工程才能从输入数据中提取特征,并且难以捕获稀缺数据中的长期时间依赖关系。对于水质数据来说尤其如此。
基于过程的模型是水质预测的另一个模型类别。这些模型通常基于水和化学变量的质量平衡原理求解常微分方程或偏微分方程,并明确模拟控制水质动态的基本过程。他们的主要优势之一是提供对水质动态机制的见解33,因为它们以物理和化学原理为指导。然而,基于流程的模型存在几个主要限制。在大多数情况下,我们缺乏全面的、基于机制的理解。基于过程的模型还需要有关无数过程和属性的详细数据35,包括地上和地下特征、水流和生物地球化学过程,收集这些过程既费时又昂贵。
深度学习方法
优势:深度学习方法可以提供高预测准确性并有可能解决传统统计和基于过程的模型面临的长期挑战。深度学习模型具有灵活性、适应性强、集成性强、可扩展性和快速性。
局限:深度学习模型还需要大量的数据集才能有效训练。深度学习在水质中的应用增长相对缓慢,可能表明数据限制是一个瓶颈。深度学习模型还被批评为“黑匣子”,缺乏可解释性和可泛化性,因此理解机制和推断超出训练数据具有挑战性。
深度学习应对数据稀缺性挑战
对未测量空间进行数据填充。例如:全球部分河流水质——所有河流水质
时间数据填充。深度学习模型已被用于通过结合空间特征、时间相关性和非线性来预测水质的时间序列,而无需事先假设。
从数据丰富的参数预测数据稀缺参数
深度学习实现稳健预测
过程引导的深度学习(PGDL):PGDL试图在与领域无关的模型架构和训练算法中对领域知识进行编码.通过这样做,PGDL模型利用了完善的过程知识,并阻止了对已知原则的违反.一些PGDL方法还利用了多任务学习,其中DL模型被训练为同时预测相关变量,如流量和流量温度,以鼓励学习变量之间共享的过程相关信息.
可微分建模(DM):旨在将基于过程的方程与深度学习模型集成在一起,以同时推进过程表示、参数估计和预测准确性.DM 以自动可微分的编程语言对现有知识和神经网络进行编码,以获得基于过程的模型的物理基础和 DL 的学习能力的优势。
深度学习知识发现
人们越来越追求判断深度学习方法可信度的方法,旨在将黑匣子变成透明的玻璃盒,以实现可解释性和知识发现。可解释深度学习 (XDL) 方法旨在通过评估模型“推理”、解释模型决策以及提取模式和驱动因素来阐明“黑匣子”。例如,XDL已被用于了解河流温度的空间关系以及溪流与风和气压在控制盐水入侵特拉华河方面的季节性重要性100。另一项研究使用 SHAP 值,将 WT、DO 和 TP 确定为河流藻华 (HABs) 最有影响力的驱动因素,这是一种广泛使用的有害藻类大量繁殖 (HAB) 指标101.
深度学习在水质领域的未来
深度学习不仅可以用于极端事件预测,还可以用于一般管理,例如识别污染源,优化监控网络和管理决策,并自动监测水质 .后报和预报方法将继续面临数据稀缺和过程理解不完整的挑战,上述方法可以开始改善这些挑战。
现有的水质研究,无论是使用传统的DL、XDL、PGDL还是DM,都只是触及了我们从深度学习模型中学习的能力的表面。大多数工作仅限于一些变量,如WT和DO,它们在很大程度上受气象条件的影响,沉积物和磷主要由放电状态驱动,以及光学活性变量,如chl a和彩色DOM,可以直接从卫星图像的光谱特征中推断出来。
极端事件和气候情景预测
传统上,极端条件下的水资源管理依赖于人类的专业知识(例如,主观检测阈值)和极端天气预报的集成模型。然而,像LSTM这样的模型在极端条件下的预测中显示出前景.
这些现有的工作只是冰山一角。我们预计基于 DL 的预测将扩展到藻类大量繁殖和 WT 之外。这种预测的瓶颈仍然是极端条件下的充足数据.为了训练得好,深度学习模型必须看到足够的输入来输出响应,以找出趋势和模式。
预测未来并将假设情景投射到未来需要的不仅仅是后报的能力。各种数据驱动的模型(统计模型、广义的机器学习模型和特定的深度学习模型)可以准确预测训练数据,但在新的输入条件下会失败。泛化性要求我们希望预测的新条件在训练数据集中表示,但通常情况并非如此。
总结
未来的潜在方向是集成 DL 和基于过程的模型(例如 PGDL、DM),利用它们各自的优点来改进预测、可解释和知识发现。
我们预测,深度学习方法改善全球水质的涌现力量将通过以下方式实现:(1)整理公开可用的空间和时间数据,并探索它们与水质变量的关系,以便进行时空预测;(2)带来新的工具和新的视角,以发现调节水质动态的隐藏模式、过程和关系;3)预测未来和未监测的水质状况,以探索在极端气候下和在快速变化的世界中管理和减轻水质损害的方案。这一结果不仅对水质领域产生深远影响,而且对理解和预测全球碳、营养物质、其他元素及其他元素循环的未来也会产生深远影响。
数据可用性
流量数据 来自全球 Streamflow 索引和元数据存档 (GSIM) 的 https://doi.org/10.1594/PANGAEA.887477 和 https://doi.org/10.1594/PANGAEA.887470 的存储库。水质数据从全球河流水质档案(GRQA)下载自 https://doi.org/10.5281/zenodo.7056647。