本期荐读论文:
Novel physics-informed optimization framework for complex multi-physics problems: Implementation for a sweeping gas membrane distillation module
本期推文的内容概要
本期推文将介绍一种新颖的物理信息过程优化框架(Physics-Informed Process Optimization, PIPO)。这项研究发表于《Chemical Engineering Journal》期刊。
由于深度学习等先进的机器学习算法对复杂多物理场问题的代理建模优化存在局限性,主要原因是深度学习模型训练所需的高质量实验和数值训练样本既昂贵又稀缺。为了解决这个问题,本研究提出了一种新颖的物理信息过程优化(PIPO)框架。第一步,基于传统神经网络(NN)的代理模型通过少量可用的高质量训练样本进行训练。第二步,将训练好的神经网络模型与过程优化求解器耦合,在该求解器中,将物理规律的损失项添加到优化器的目标函数中,以找到符合物理规律的最优设计点。结果表明,该框架在神经网络模型训练范围之外的设计目标上,泛化性能得到了显著提升。PIPO框架与物理信息神经网络(PINN)有很大不同,后者是在神经网络模型训练过程中将物理损失添加到损失函数中。PIPO框架被用于优化扫气膜蒸馏(SGMD)模块,优化了包括工艺参数和几何参数在内的八个输入设计变量,以实现氨回收率和浓度方面的最佳SGMD性能。研究表明,尽管只有68个实验样本用于训练,该框架仍能在合理的计算成本下实现优化目标。通过高分辨率计算流体动力学模型对最优设计进行了验证和详细分析。
论文的创新点主要有以下几点:
1)提出了物理信息过程优化(PIPO)框架:PIPO框架通过使用浅层神经网络(NN)与物理约束相结合,实现了在数据较少的情况下,仍能有效进行复杂多物理问题的优化,且比PINN框架计算成本更低;
2)将物理损失引入优化目标函数:与传统的PINN方法不同,PIPO将物理损失项直接纳入优化目标函数中,从而确保优化结果不仅符合数据驱动的预测,还能满足物理规律,提升设计精度,尤其是在训练数据范围之外的预测准确性;
3)通过独立神经网络提高预测精度并降低计算成本:PIPO框架为每个输出变量单独训练神经网络,使得每个网络的结构和超参数可以单独优化,提高了预测精度,并且由于减少了对大量训练数据的需求,相比于PINN,显著降低了计算成本。
问题的背景
传统的物理模型方法(如实验和数值模型)在优化复杂物理系统时面临诸多挑战,特别是在膜分离技术领域。随着数据科学和机器学习(ML)方法的崛起,新的数据驱动方法为处理这些复杂系统提供了可能。机器学习特别是在大规模输入数据处理、降低计算成本和加速优化过程中,展现了巨大的优势。传统的神经网络(NN)作为最常用的机器学习模型,已经被广泛应用于膜分离技术中的性能预测和系统优化。然而,随着对模型精度和泛化能力的要求提高,更加先进的物理信息神经网络(PINN)应运而生,能够通过将物理规律纳入损失函数来增强模型的精度和适用范围。但即使如此,PINN方法在实际工程应用中仍面临一些局限性,特别是在数据量稀缺的情况下。
荐读论文解决的主要问题包括:
-
传统NN模型泛化能力差:虽然传统的神经网络(NN)模型能够处理多维度输入数据并进行优化,但其泛化能力有限,尤其是在优化目标超出训练数据范围时,性能显著下降。这限制了它在复杂多物理问题中的应用;
-
PINN框架需要大量训练数据:尽管PINN通过将物理规律引入损失函数提高了精度,但其训练需要大量的实验或数值数据来保证模型的准确性和泛化能力。对于许多复杂的多物理问题,如扫气膜蒸馏(SGMD)过程,可靠的高质量训练数据难以获取,且训练过程的计算成本高昂;
-
高计算成本限制了PINN的实际应用:PINN方法要求数百到数千个训练样本才能达到合理的预测精度,在一些实际工程问题中,生成这些数据的成本十分高昂,因此在实际应用中受到制约。
-
现有优化方法精度和效率之间的平衡问题:现有的基于传统NN和PINN的优化方法,在提高预测精度的同时,往往面临较高的计算成本和较低的效率,特别是在需要高质量数据库的多物理问题中,如何平衡精度和效率是一个关键挑战。
针对这些挑战,荐读的论文提出了一种新的物理信息过程优化框架(PIPO),通过使用浅层神经网络和物理规律约束,减少训练样本需求并提高模型泛化能力,从而有效解决复杂多物理问题中的优化挑战。
方法的概述
(一)传统NN、PINN与PIPO的对比
传统神经网络(NN)和物理信息神经网络(PINN)模型在处理具有不同数据类型的高维输入数据、降低计算成本以及与高分辨率CFD模型相比显著加速的能力,使得这些模型成为处理涉及大量不同类型输入设计变量的优化问题的良好候选方法。图1(a)和(b)分别展示了使用传统NN和PINN模型的两种常见基于机器学习的优化框架。在传统NN优化中,浅层神经网络模型与过程优化求解器直接耦合,以找到一组输入设计参数的最优设计点。尽管这种优化框架所需的训练样本数量相对较少,但其在训练范围之外的优化目标的泛化性能较差,这可能限制其在复杂多物理问题中的应用。
图1 复杂多物理问题的不同优化框架:
(a) 传统的基于神经网络(NN)的优化框架,由一个浅层神经网络与过程优化求解器耦合而成;
(b) 物理信息神经网络(PINNs)与过程优化求解器耦合;
© 提出的框架,由多个具有最优架构的浅层神经网络与物理信息过程优化求解器(PIPO)耦合组成。
(二)物理信息数据驱动优化框架
所提出的PIPO框架的示意图如图2(a)所示。该框架分为两个独立的阶段:第一阶段为机器学习模型训练,第二阶段为过程优化。
图2 (a) 物理信息过程优化(PIPO)框架和 (b) 基于传统神经网络(NN)的SGMD性能优化
在第一阶段,目标是训练三个不同的神经网络(NN)模型,以预测输出设计参数(如)以及一个额外的参数(mp,即渗透质量流量),这些参数是基于给定的输入设计参数
(
)预测的。这三个浅层NN模型
是通过68个高质量实验数据进行训练的。每个NN模型的输入层大小为8,表示SGMD输入设计变量的数量,输出层大小为1。隐藏层使用Sigmoid激活函数,输出层使用线性激活函数。每个NN模型的隐藏层大小通过参数化研究确定,以便在均方误差(MSE)和回归系数(R值)方面获得最佳性能。NN模型的可训练参数(如权重和偏置)是通过贝叶斯正则化反向传播算法进行调整的。模型训练是基于不同SGMD配置的实验数据进行的,其中10%的数据用于模型验证,15%的数据用于测试模型的准确性。
在第二阶段,目标是找到给定设计目标下的最佳SGMD配置,这些目标包括目标氨回收率 和目标渗透侧氨浓度
。在这一阶段,第一阶段训练的三个NN模型与物理信息过程优化求解器结合使用。过程优化使用遗传算法(GA)进行,GA是一种基于种群的算法,通过在种群成员之间的突变和交叉进行随机搜索。GA求解器在混合整数模式下使用,因为存在整数设计变量和连续设计变量。优化函数旨在通过最小化目标函数f(X),获得最佳输入设计变量(X)
其中,g(X) 是约束条件。XL 和 XU 分别是 X 的下限和上限。由于设计考虑和下游设施对氨气回收的限制,线性扫气速度被限制为 USG ≤ 3.5 m/s,这被作为约束函数 g(X) 实现。
目标函数是基于加权平均法定义的,考虑了目标回收率 和渗透侧出口的目标氨浓度
,以及一个额外的项,用于考虑由于在SGMD单元中违反质量守恒所导致的物理损失(lossmass)
其中,w1、w2 和 w3 是加权系数。 和
分别是通过相应的神经网络(NN)模型在过程优化迭代(GA 生成)中计算得到的渗透侧的氨回收率和浓度。目标函数中的第三项,即
被加入以强制过程优化搜索物理相关的最优点。通过这种方式,过程优化求得的最优设计点不仅仅是数据驱动的最优点,它们还满足物理定律,从而增强了过程优化的可靠性,能够实现有意义的最优设计点,即使这些点位于训练数据库之外。进料域的质量不平衡在 GA 生成过程中被计算为进料入口质量流量、进料出口质量流量和浓度,以及由
直接预测的总渗透质量流量 mp。这些参数被用来定义物理损失,如下所示:
需要注意的是,PINN模型和提出的PIPO框架在物理损失的实现上有显著的不同。在PINN模型中,物理损失被加入到内部优化器的损失函数中,以通过最小化误差和物理损失来寻找神经网络(NN)模型的可训练参数。相反,在PIPO框架中,物理损失被加入到过程(外部)优化器的目标函数中,以找到满足物理定律的最优设计点。
为了展示所提方法在优化目标超出训练范围时的能力,将PIPO框架的性能与基于常规神经网络(NN)的框架进行了比较,使用相同的训练样本和设计目标。常规NN优化框架的示意图如图2(b)所示。该框架包括两个阶段。第一阶段处理使用实验训练数据训练浅层神经网络(NN),以预测氨回收率RNH3和渗透侧出口的氨浓度CSG NH3。输入层和输出层的大小分别为8和2,超参数是在参数研究后确定的。10%的实验数据用于模型验证,以避免模型训练过程中的过拟合,15%的样本用于测试模型的准确性。
在第二阶段,训练好的神经网络模型与过程优化求解器结合,用于找到最优的SGMD配置。过程优化器的目标函数基于遗传算法(GA)算法,并将加权系数设置为1。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。