本期推文的内容概要
本期推文将介绍一种基于图神经网络的时频双流网络来实现多步预测(Graph-Based Time–Frequency Two-Stream Network, GTFTS)。这项研究发表于《IEEE Transactions on Cybernetics》期刊。
基于深度学习的软传感器建模方法在过去十年中已广泛研究并应用于工业过程。然而,现有的软传感器模型主要集中于实时的当前步预测,而忽略了提前的多步预测。在实际工业应用中,与当前步的预测相比,提前预测一些关键性能指标对现场工作人员更具实际意义。目前,多步预测任务仍面临两个关键问题:1)过程变量之间复杂的耦合关系;2)长期依赖学习。为了应对这两个问题,荐读的论文提出了一种基于图的时频双流网络来实现多步预测。具体来说,提出了一个多图注意力层,用于从图的角度建模过程变量之间的动态耦合关系。然后,在时频双流网络中,使用多图注意力网络(multi-GAT)分别提取时域特征和频域特征,以应对长期依赖问题。此外,该论文还提出了一个特征融合模块,基于最小冗余最大相关学习范式,结合这两种特征。最后,在两个真实工业数据集上进行了广泛的实验,结果表明,所提出的多步预测模型优于现有的最先进模型。特别地,与现有的最先进方法相比,所提出的方法在使用废物焚烧数据集进行三步预测任务时,RMSE、MAE和MAPE分别提高了12.40%、22.49%和21.98%。
论文的创新点主要有以下几点:
1)时频联合框架:提出了一种双流网络框架,从复杂的工业数据中提取具有判别性和信息量的时频特征。与以往的研究不同,这是将频域信息集成到工业预测模型中的新尝试,为纯时域建模的工业过程提供了互补的信息;
2)多图注意力网络(Multi-GAT):构建了一个多图注意力层(Multi-GAT)来建模由于工业过程的时变特性引起的过程变量之间的动态复杂耦合关系。所提出的多图注意力网络能够全面考虑变量之间的多重交互关系,用于图结构学习,从而弥补单一图结构的不足;
3)特征融合模块:在最小最大学习范式(MRMC模块)中提出了一种方法,有效地融合时频特征,提升融合特征的表示能力。具体而言,使用最小冗余方法减少时域和频域特征之间的重叠信息,同时计算最大相关性,确保融合后的特征与目标变量具有强相关性。
问题的背景
在智能制造中,准确估计工业过程中的关键绩效指标(KPI)至关重要。过去几十年中,基于深度学习(DL)的软传感器模型已经得到广泛研究,主要包括基于自编码器(AE)和循环神经网络(RNN)的方法。然而,随着图神经网络(GNN)的发展,越来越多的研究开始尝试将其应用于工业过程中的软传感器建模,尤其是利用GNN挖掘过程变量之间的潜在依赖关系。近年来,一些研究提出了利用图卷积网络(GCN)和注意力机制来提升预测精度和可解释性的框架,这些方法在实际工业过程中,尤其是在煤矿和焚烧等生产环节中表现出了良好的效果。尽管这些研究在单步预测中取得了较好成果,但它们主要集中于当前步骤的预测,忽视了多步预测任务的挑战,而多步预测在实际工业应用中具有重要意义。
荐读论文解决的主要问题包括:
-
复杂耦合关系:当前的许多研究依赖于欧几里得空间模型来捕捉过程变量之间的耦合关系,这种方式容易导致拓扑结构数据中的信息丢失。图神经网络(GNN)能够有效地提取空间耦合关系,但在生产过程中,当工作条件发生变化时,GNN方法往往无法准确建模动态耦合关系。此外,实际工业场景中通常存在复杂的变量间关系,这些关系在现有的多步预测模型中没有得到充分考虑。;
-
长期依赖学习:多步预测任务本质上是一个长期依赖学习问题。现有的模型主要关注时间域中的长期依赖,但忽视了频率域中的特征提取,导致长期依赖的挖掘受到限制。频域分析在深度学习模型中的整合仍然是一个挑战。如何将频率特征有效地融入深度学习模型以提升预测效果,是当前研究面临的重要问题;
-
时频特征的有效融合:现有方法通常将时域和频域特征分开处理,未能充分利用两者的互补性。将时域和频域特征进行有效融合,不仅能够提升特征的表示能力,还能提高多步预测的准确性。然而,现有方法在融合时频特征时,未能充分考虑冗余信息和最大相关性问题,导致特征融合效果不理想。
针对这些挑战,荐读的论文提出了一种基于图神经网络的时频双流网络(GTFTS),旨在通过优化冗余目标函数来减少时域和频域特征之间的冗余,同时基于最大相关性原则增强融合特征与目标序列之间的相关性。
方法的概述
如图1所示,GTFTS包括三个关键模块:1) 多图注意力层;2) 双流网络;3) 时间-频率特征融合模块。
图1 GTFTS的详细框架:该网络由两个分支组成:1) 时间域流(蓝色框)和 2) 频率域流(红色框)。原始时间序列通过短时傅里叶变换(STFT)转换为频率域表示。在每个分支中,设计了多图注意力网络(multi-GAT)来捕捉过程变量之间复杂的耦合特性。提出了特征融合模块,以有效地将这两种特征进行融合,融合后的特征被输入到后续的LSTM层进行多步预测。构建了三元组损失函数(triplet loss function)来通过反向传播算法更新可学习的权重参数。
(一)多图注意力层
在工业系统中,存在多种工作单元,配备多个传感器以收集物理设备的信号。这些过程变量能够生成多元时间序列,并具有强耦合特性。例如,在废物焚烧系统中,主蒸汽流不仅受给水流的影响,还与第一次空气挡板相关。在正常工作条件下,增加给水流量可以提高主蒸汽流量,因为主蒸汽流主要来源于给水流。当给水流量增加时,第一次空气挡板应提供更多的氧气以支持炉内的燃烧。显然,过程变量之间存在复杂的耦合关系。这些数据可以从数学角度看作是非欧几里得图结构,因此使用图网络来建模空间依赖关系是自然且合理的。荐读的论文利用图结构来描述工业过程中的过程变量之间的耦合关系,在图中,节点表示所有过程变量,边表示它们之间的相互关系。
如何建立图结构是预测建模中的关键步骤。如果生成的图不能有效编码工业数据的信息,就会阻碍网络学习。然而,理解工业机制是困难的,因此无法基于特定的计算方法精确预定义一个图。作者指出,生成一个完美图结构的标准度量并不存在。在实际工业系统中,不同变量之间的关系是隐式的,很难通过距离方法直接计算。此外,在实际工业过程中,不同过程变量之间可能存在多种关系。以废物焚烧为例,主蒸汽流与给水流之间的相互作用是动态且复杂的。一种度量方法无法反映它们的相互影响,这意味着不同传感器测量之间可能存在多种边。
为了解决这一困境,作者提出建立一个多图注意力网络,通过计算不同形式的邻接矩阵(如基于距离的方法、基于相关性的方法、以及基于互信息的方法),全面反映过程变量之间的复杂关系,如图2所示。多图注意力网络的构建包括两个步骤:1) 确定邻近节点;2) 在邻近节点之间重新分配权重。
图2 多图注意力网络概述。多图通过三种计算方法构建:基于距离的图、基于相关性的图和基于互信息的图。使用加权平均方法将这三种图合并,并通过自注意力机制捕捉过程变量之间的动态耦合关系。
(二)双流网络构建
在时间序列分析中,通常从两个方面研究这一问题:1)时域方法和 2)频域方法。时域方法主要用于探讨信号(或变量)如何动态变化,而频域方法则展示信号在各频率范围内的幅度分布,可以用作特征来研究原始数据。目前,大多数时间序列模型仅专注于时域建模,而忽略了频域信息。为填补这一研究空白,荐读的论文提出了一个直观的思路,即联合考虑两个域的信息。此外,对于深度学习模型,关键任务正是从原始数据中学习尽可能多的有用特征。已有研究表明,频谱表示有助于推测时间序列的未来状态,因为它能够揭示不同频率中的潜在趋势。
在工业过程中,由于原料波动和现场工人调整,存在周期性的工作条件。原料通常在固定的时间周期(如一周或一个月)内更新,这会导致过程变量的周期性变化。此外,每台机器(如废物焚烧炉)都配有不同的工人来调整相关参数,以维持正常的工业操作,不同工人的操作设置也带来了动态的工作条件。因此,进行频域分析对于在工业过程中进行多步预测至关重要。基于这些发现,该论文提出建立一个时频两流网络来挖掘工业数据中的隐藏信息。
(三)时频特征融合
在从双流网络中分别提取了时域和频域特征之后,如何融合这两种特征是一个关键步骤。通过文献分析,常见的特征融合策略有两种:1)串行融合和 2)并行融合。串行融合方法是将不同的特征向量合并成一个长向量,虽然此方法简单,但容易导致融合后的特征与目标序列之间的相关性较弱。而并行融合方法是通过将两个向量相加生成一个复杂向量,这种方法通常会破坏原始数据的信息,并忽略两种特征之间的内在关系。
在废物焚烧过程当中,不同的过程变量对主蒸汽流量的影响不同。例如,给水流量与主蒸汽流量之间有较强的相关性,而第一个空气阀与主蒸汽流量的相关性较弱。在这种情况下,为每个特征赋予不同的权重,可以提高模型训练的收敛速度。传统的特征融合方法并未保证融合特征与主蒸汽流量之间的最大相关性。
为了解决这些问题,荐读的论文提出了一种最小冗余最大相关性(Minimum Redundancy and Maximum Correlation,MRMC)方法,用于融合时域和频域特征表示,如图3所示。这种融合方法不仅能从时频特征中获得辨别性信息,还能消除冗余信息。同时,它能确保融合特征与目标序列之间的最大相关性,从而有助于后续的预测任务。
图3 特征融合模块中Z1、Z2与Y之间的关系。该融合模块由两个输入组成:时域特征X1和频域特征X2。所提出的MRMC方法通过最小化冗余并最大化融合特征与目标序列之间的相关性来融合时域和频域特征表示。
总结与思考
荐读的论文提出了一种时频双流网络,用于实现工业过程中的关键性能指标(KPI)多步预测。论文中开发了一个多图注意力网络(multi-GAT)来捕捉不同过程变量之间的空间动态相关性。另一方面,提出了一个双流网络,分别学习时域和频域特征。此外,还提出了一种特征融合方法,将时频特征融合,用于下游的多步预测任务并在两个工业案例中验证了所提出方法的有效性和可行性。
作者指出,未来计划将专家知识融入深度学习模型,以提高工业过程建模的可解释性。此外,如何减少短时傅里叶变换(STFT)中的频谱泄漏也是未来研究中一个值得关注的话题。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。