【IEEE TII】用于工业过程预测建模和关键样本分析的数据模式相关可解释Transformer网络

AI大模型-海文

已于 2024-11-01 13:47:50 修改

阅读量1.1k

点赞数 16

文章标签： transformer 深度学习人工智能网络安全系统安全 web安全安全架构

于 2024-11-01 13:46:35 首次发布

本文链接：https://blog.csdn.net/HUANGXIN9898/article/details/143429945

版权

期刊

摘要

准确预测难以测量的质量变量对于工业过程控制和优化至关重要。然而，原材料质量和生产条件的波动可能会导致工业过程数据在多种工作条件下分布。在相同工作条件下的数据显示出相似的特征，这些特征通常被定义为一种数据模式。因此，整个过程数据表现出多模式特性，这给开发统一的预测模型带来了巨大的挑战。此外，现有数据驱动预测模型的不可解释性给其实际应用带来了很大的阻力。为了解决这些问题，本文提出了一种新的与模式相关的可解释Transformer网络（DMRl-Former），用于工业过程中的预测建模和关键样本分析。在DMRl-Former中，设计了一种新的数据模式相关的可解释自我注意机制，以提高每个个体对同模的感知能力，同时捕捉不同模式的跨模特征。此外，使用DMRl Former可以发现不同模式下的关键样本，这进一步提高了建模过程的可解释性。最后，与其他最先进的方法相比，所提出的DMRl-Formeris在两个真实的工业过程中验证了其优越性。

关键词：数据模式相关可解释的自我关注（DMRl-SA）、数据模式相关的可解释Transformer（DMRl Former）、工业过程、关键样本分析、预测建模。

引言

在碳达峰和碳中和的背景下，工业过程迫切寻求智能化转型升级，过程的实时监控、控制和优化是最重要的任务之一fl]，[2]。通常，关键质量变量的实时测量是工业制造状态的最有效反映。不幸的是，由于测量技术和工业环境的限制，大多数质量变量无法及时测量[3]。这导致工业过程控制和优化中的大时间延迟[4]。在此背景下，随着时间的推移，使用易于测量的过程变量预测难以测量的质量变量的软测量技术应运而生[5]，[6]。

最初，大多数软测量模型都是基于过程机制的。然而，由于过程复杂性的快速增加，基于机制的精确模型变得越来越难以获得7]。相反，随着工业过程中大量数据的存储和利用，数据驱动的软传感器模型已经开发出来。基于深度学习的方法已成功应用于该领域，如堆叠自编码器（SAE）[8]、长短期记忆网络CLSTM[9]和卷积神经网络（CNN）[10]。例如，Sun和Ge[11]提出了门控堆叠目标相关自编码器模型，以解决SAE中的深度特征信息减少问题。Loy-Benitez等人[12]提出了一种基于记忆门控递归神经网络的自编码网络，以解决空气质量预测任务中的动态信息提取问题。Lei等人[13]提出了CNN-LapsELM算法，用于预测工业铝电解槽的过热度。

然而，在实际工业过程中应用数据驱动方法仍有三个关键问题需要解决。首先，现有的数据驱动模型大多假设数据是单模分布的。事实上，在实际的工业过程中，总是有许多不确定因素导致工作条件的变化，如原材料质量的波动、操作条件的变化、生产要求的变化等。[14]。一般来说，相同工况下的数据表现出相似的特征，这些特征会收敛形成一个描述工况制造特征的数据模式。这导致大多数工业过程数据表现出多模数据特性。如何捕捉模式内部的相似性和模式之间的相互作用对于模型训练和提高模型性能具有重要意义。因此，在构建实际工业过程的预测模型时，有必要考虑数据的多模特性。

尽管现有的方法对多模过程进行了一些研究，但它们大多侧重于过程监测，对多模软测量建模的研究有限。Wu等人[15]引入了实时学习框架，在一定程度上解决了时变工业过程中的模式转换问题。Guo等人[16]通过将Kullback-Leibler散度引入准时框架，进一步提高了相似样本匹配的准确性。然而，基于准时的方法面临着提取过程动态演化模式困难和模式频繁更新的问题。

其次，大多数现有的数据驱动模型都是不可解释的，这使得它们在高风险决策的工业过程中不切实际[17]。一般来说，有三种方法可以解决模型的可解释性。第一种是将数据驱动模型与机制驱动模型相结合[18]。第二种是使用数学方法来解释数据驱动模型的内在工作机制[19]。然而，这两种方法在复杂的工业过程中很难实现。第三种是使用视觉方式显示模型中一些关键层的机制[20]。这是理解解释方法的最容易和最简单的方法，也是迈向完全可解释模型的第一步。然而，当前的数据驱动模型，尤其是深度学习模型，在物理层面上没有可视化意义[21]。这也导致了这样一个事实，即大多数数据驱动模型都难以实现最基本的可解释性。

现有数据驱动的软测量模型的第三个问题是，大多数模型基于输入数据进行单步预测。然而，在实际工业过程中，对时间序列数据进行多步预测的需求同样迫切[22]。例如，Geng等人[23]提出了一种基于多阶段注意力的递归神经网络算法，用于废水处理过程中总氮含量的多步预测。Yan等人[24]提出了一种去噪空间-时间编码器-解码器框架，用于烧结过程中烧结点的多步预测。然而，这些方法只能进行短期多步预测，在长期多步预测任务中性能严重下降。主要原因是，由于操作条件的频繁变化，工业过程没有明显的周期性，也受到多模和高噪声问题的影响[25]。这要求所使用的模型能够提取动态超长距离特征，但大多数模型都失败了。

近年来，基于自关注机制的Transformer网络引起了人们的极大兴趣，特别是自从许多研究人员利用它们来获取数据的时间序列特征以来。例如，Liet等人[26]提出了用于流量和能量时间序列预测的LogSparsetransformer（LogTrans）模型。Zhou等人[27]提出了一种用于电力预测任务的Informer网络。Zerveas等人[28]首次将训练策略引入到transformer算法中，提出了mvts transformer算法，并将其应用于PM2.5预测任务。Wu等人[29]提出了用于捕获时间序列变换模式的自适应算法，并将其用于电力预测任务。他们成功的关键在于注意力机制增强了动态超长距离特征的提取能力。这也可以作为解决工业过程沿时间序列预测问题的关键之一。为了解决上述工业过程预测领域中动态超长距离的多模分布特征、可解释性差和特征提取困难的问题，本文提出了一种用于工业过程预测建模和关键样本分析的新型数据模式相关可解释Transformer网络（DMRI Former）。本文的主要贡献如下。

1）提出了一种基于Transformer的新型网络DMRFormer，用于精确预测关键质量变量和对模型过程进行可解释分析。

2）传统的自我注意机制被增强为数据模式相关的可解释自我注意机制（DMRI-SA），以充分提取数据模式信息。

3）同模注意旨在描述每个单独模式中样本的相似性，交叉模式注意旨在捕捉不同模式样本之间的相互作用。

4）可视化技术通过发现不同模式层的作用机制并将密钥样本定位在不同模式集中来提高模型的可解释性。

5）与其他最先进的方法相比，两个工业过程的实验结果验证了所提出方法的有效性。

准备工作

A.自我关注机制

自我注意机制是传统注意机制的扩展形式[30]，主要包括标准标度点积注意和多头注意。它们的具体示意图如图1所示。

图1（a）中的标准缩放点积注意力本质上是点积相似性计算。假设表示查询矩阵，表示键值对，其中和分别表示查询向量和键值对的数量。标准标度点积注意力的计算过程可以描述为

其中表示注意力计算后获得的矩阵，和分别表示查询向量和关键字向量的维度。通常，值向量的维数等于。

为了提取更丰富和准确的特征，标准缩放的点积注意力被增强到图1（b）中的多头注意力。它首先将查询向量和键值对映射到不同的子空间，以探索数据的不同属性，可以描述为

其中表示在该子空间中获得的矩阵，是该子空间的维数。和表示查询、键和值的映射矩阵。然后，所有子空间的信息被聚合以形成最终输出

其中表示最终输出，表示输出映射矩阵。

B.Transformer网络

Transformer网络是一个深度堆叠的神经网络，由五个主要组件组成，包括嵌入模块、分析模块、残差连接模块、前馈模块和输出模块。Transformer网络的示意图如图2所示。假设表示输入数据集，其中N表示样本数。嵌入模块的计算过程描述为

其中表示嵌入矩阵，表示维度，表示映射矩阵，表示偏差参数。然后，在上添加位置编码，以弥补注意力计算无法识别序列位置的不足，该编码为

其中和表示获得的矩阵和位置编码矩阵，表示样本位置，表示变量位置。

之后，通过个堆叠编码器逐渐提取嵌入的数据。在单个编码器中，嵌入的数据首先形成查询矩阵和键值对，如下所示

其中和表示权重矩阵。和表示偏差矩阵。随后，在多头注意力计算后，使用残差连接和层归一化来缓解梯度消失和梯度爆炸问题，表示为

其中表示层归一化，表示获得的数据。接下来，添加前馈层以增强非线性，

其中表示获取的数据，表示前馈层，表示前馈层的输入，表示取最大值的操作，和表示权重矩阵，和表示偏差参数

值得注意的是，解码器的自我注意力增加了一个额外的掩码操作，以防止未来信息的泄露，这被描述为

其中表示获得的数据，表示掩码的多头注意力，是掩码矩阵。在解码器的第二个多头注意力中，编码器的输出作为键值对，解码器的第一个多头注意力输出作为查询矩阵。

最后，最后一个解码器输出被映射以获得最终输出值，如下所述

其中和分别表示权重矩阵和偏差。随后，整个网络通过反向传播算法进行训练。

数据模式相关的可解释Transformer

A.与数据模式相关的可解释自我注意机制

在工业过程中，属于同一模式的数据具有很高的相关性。此外，相邻模式之间也存在一定的相互作用。为了充分提取同一模式内的相关性，并考虑过程数据不同模式之间的相互作用，本文提出了一种与数据模式相关的可解释自我注意（DMRI-SA）策略。DMRI-SA的概念图如图3所示，由模式聚类、同模式注意和跨模式注意组成。

首先，对数据进行聚类以获得数据模式标签。由于收集到的工业过程数据没有数据模式标签，因此使用无监督聚类方法根据数据特征为样本分配数据模式标签。假设聚类算法获得的每一类数据样本代表一种数据模式。常用的聚类方法包括K-means、均值漂移聚类[31]、混合高斯聚类[32]和聚集聚类[33]。在这项研究中，K-means方法被用来对过程数据进行聚类，以获得其数据模式标签。假设原始数据集x有M个不同的模式样本x的模式标签可以通过K均值方法获得，该方法描述为

其中表示应变K-means的方法。和分别表示标记的样本及其模式标签，表示训练数据集中属于第i个模式的子数据集。表示每个模式子数据集的长度。

其次，利用获取的数据模式标签进行同模注意。请注意，第i个模式的查询矩阵和键值对是由生成的。注意力计算的具体细节与（2）-（3）相同。通过这种方式，可以充分提取每种模式的进化模式，并更好地表示每个模式的局部特征。

第三，在跨模式注意力中，考虑了不同数据模式之间的相互作用，以避免仅通过测量同一注意力而造成的信息损失。假设和表示有两种不同的模式，其中。然后，交叉模式注意力的查询矩阵由中的数据生成，中键值对由其中可以表示为

其中表示子数据集。和表示权重矩阵。和表示偏差向量。在DMRI-SA中，交叉模式注意力被设计为一个可选步骤，由每个模式的大小决定。这主要是因为当一个模式中的数据量足够时，跨模式注意力可能会增加计算复杂性，而同模式注意力可以充分表征每个模式。

值得注意的是，DMRI-SA为关键模式样本的定位提供了一种具有良好可视化和解释意义的新方法。根据上述描述，在DMRI-SA中提取样本模式信息的方法是通过使用查询样本和所有样本键之间的点积相似度作为权重来聚合所有样本信息。这意味着，如果键与所有查询中高度相似，那么样本就是键样本。例如，模式的这组关键样本可以通过以下方程获得。

其中S表示注意力得分矩阵，表示取前k个最大样本，表示矩阵中每列的平均值。为了直观地显示模型的可解释性，注意力得分矩阵S可以通过热图可视化。相应的可视化结果可以在以下工业应用中找到。

B.数据模式相关的可解释Transformer

为了充分探索数据模式内部和之间的特征，将提出的DMRI-SA引入传统的转换器中，以取代自我关注，构建一个新的DMRIFormer网络。DMRIFormers的具体框架如图4所示。首先，在网络底部引入了一个基于K-means方法的分类模块，对数据进行预聚类，表示为。为了捕捉时间序列的长时间历史变化模式，使用滑动窗口技术来选择编码器输入。也就是说，选择一组较长的历史样本作为编码器输入，其中表示当前样本，表示编码器样本集的滑动窗口长度。然后，使用分类模块中的K-means方法获得模式标签，该方法描述为

其中代表编码器的标记数据，表示样本的模式标签。通常，为了丰富每种模式的样本数量，滑动窗口长度ke被设置为较大的值。在编码器中，DMRI-SA完全提取输入数据之间的相关性。然后，生成隐藏特征，为后续解码器提供基础参数。在解码器中，由于最近邻样本对要预测的变量影响最大，因此只有附近的样本选择当前时刻作为解码器输入，其中表示与预测质量变量对应的过程变量。l表示每个预测时间的未来窗口长度。表示解码器样本集的滑动窗口长度。预测样本的模式类与最近样本的模式类别相同。然后，根据编码器数据计算DMRI SA以提取局部进化模式。然而，仅靠局部特征无法实现准确的预测，因此需要编码器提取的远程特征。与（7）-（9）类似，解码器获得的初始特征用作查询矩阵，编码器获得的特征用作键值对矩阵。然后，将局部特征与长程特征进行整合，以获得原始数据中更有意义的特征。

最后，最终输出可以通过结合解码器中的前馈模块和剩余连接模块来获得，其中表示时间的预测输出值。由于DMRI Former的目标是准确预测未来时间的质量变量，其损失函数被定义为预测值和真实值之间的均方误差，表示为

其中是时间处质量变量的真实值。

C.DMRl-基于前体的软测量建模

所提出的DMRI-Former网络可以分层提取每种模式的相关性，并充分考虑不同模式之间的相互作用。同时，可量化的注意力得分提高了建模过程的可解释性，为确定关键模式样本提供了新的思路。因此，它非常适合工业过程的软测量建模，特别是由于操作条件变化而具有多模特性的过程数据。基于DMR Former网络的详细软测量建模框架如图5所示。它主要通过以下步骤。首先，从工业过程中收集的数据分为训练数据和测试数据。分类模型用于通过属于无监督学习的无监督聚类算法标记所有未标记训练数据的模式类。接下来，利用滑动窗口技术，使用相应的标记模式选择编码器和解码器的输入数据。之后，将样本输入DMRI Former模型以预测关键质量变量。随后，通过属于监督学习的反向传播算法，利用标记数据值和预测数据值之间的误差来构建损失函数，以更新模型参数。最后，将测试数据发送到训练好的DMRI Former模型，以获得关键质量变量的预测结果。

通常，均方根误差（RMSE）和平均绝对误差（MAE）被用作回归任务的重要评估指标。它们的值越小，模型的预测精度就越高。两者的具体计算公式如下：

工业应用

本节对所提出的DMRI Former网络在工业脱丁烷塔工艺和加氢裂化工艺中进行了实验模拟。为了使实验更具说服力，在相同的实验条件下，还模拟了LogTrans[26]、Informer[27]和长短期时间序列网络（LSTNet）[34]、mvts变换器[28]、基于时空注意力的LSTM（STALSTM）[35]、监督长LSTM（SLSTM）[36]和主成分回归（PCR）等先进方法进行比较。仿真实验是用Python 3.7和torch 1.8实现的。

A.脱丁烷塔

脱丁烷塔是一种用于分离C3、C4和其他馏分的精炼工艺，其中C4从塔底抽出。其流程图如图6所示。脱丁烷塔的整个系统由六个主要部分组成，包括换热器、塔顶冷凝器、塔上再沸器、扬程回流泵、液化石油气分离器的进料泵和回流储罐。整个系统的高效运行在很大程度上取决于C4成分的实时测量。然而，由于测量环境的限制，C4的测量目前依赖于塔顶的单个气体探测器。这样，不仅检测精度非常有限，而且检测延迟也很大。因此，构建一个软测量模型来预测脱丁烷塔过程中的C4是必要和紧迫的。如图6中的灰色圆圈所示，选择了七个用于全过程分析的常用辅助变量来构建软传感器模型。这些变量的详细描述如表I所示。

本文中，脱丁烷塔是基于一个实际的工业模拟过程。所使用的数据是通过在已构建的仿真系统中进行仿真获得的，该仿真系统在《工业监控用软传感器》一书中有所描述过程[37]。数据的采样频率为15分钟，数据以浮点形式存储。在此过程中，共收集了2300个标记样本，其中前2000个样本用作训练样本，后300个样本用作测试样本。由于多模是工业过程中普遍存在的现象，因此利用分类模型为这2000个训练数据样本分配多模标签。为了保证模型的训练效果，对所有数据进行归一化处理，利用试错法寻找最优超参数。通过灵敏度实验，从10到50中选择了两个重要参数ke和ka，步长为5。其他超参数也通过大量实验获得。表II给出了DMRI形式的超参数的详细优化组合。

值得注意的是，选择较大的滑动窗口长度编码器和较小的滑动窗口长解码器可以同时保持最佳性能和最小的计算工作量。表III显示了具有最佳超参数组合的八种方法的实验结果。从表III的实验结果可以看出，PCR的预测结果较差。这主要是因为PCR是一种静态方法，无法捕捉序列的动态转换模式。虽然LSTNet和SLSTM可以利用LSTM的递归结构来提取时间序列的变化模式，但当数据模式不同时，它们无法感知不同的进化模式。因此，他们的预测结果仍然表现不佳。STALSTM结合时空注意力在一定程度上解决了这个问题，但由于其捕获远程特征的能力有限，其预测性能仍然不是最优的。此外，随着预测长度的增加，Informer的性能急剧下降。这主要是因为Informer的ProbSparse自关注机制只考虑了少量的历史样本，导致多模式数据集中的信息大量丢失。mvts变换器利用随机掩码预训练使模型能够感知序列的整体特征。但它仍然缺乏感知动态模式的能力，导致其性能欠佳。相比之下，LogTrans的预测性能优于其他方法，但仍不如DMRI Former。这主要是因为LogTrans在计算注意力时考虑了多个最近邻样本，这在一定程度上增加了同一模式样本之间的相似性，削弱了不同模式之间的相似度。从所有实验结果和分析来看，所提出的DMRI形式在所有方法中具有最佳的预测性能。这主要是因为DMRI Former考虑了相同模式之间的相似性和不同模式之间的相互作用。通过这种方式，它提高了从数据中提取更有价值信息的能力，同时避免了信息丢失。

直观地说，图7进一步显示了所有方法的预测曲线和预测脱丁烷塔中C4的真实曲线。显然，PCR的预测曲线只能跟踪真实值的总体趋势，效果不佳。LSTnet、SLSTM、STALSTM和Informer的预测曲线与真实曲线之间存在很大差距，特别是在曲线的峰谷处，这进一步说明了它们难以适应多模数据。mvtsTransformer和LogTrans的预测趋势总体上很好，但在严重模式切换点的预测性能仍然很差。从图7（a）-（h）可以看出，所提出的DMRlFormer方法在大多数测试样本和总体趋势中都能达到最佳拟合，这也表明所提出的方法具有最佳的预测性能。

此外，为了直观地感知和深入分析预测长度对模型性能的影响以及不同方法之间的差异，图8显示了每种方法的预测性能随预测长度的变化曲线。从图8中可以很容易地看出，所提出的DMRI Former方法的红色曲线明显低于其他方法的曲线，这也证明了所提出方法的预测精度更高。随着预测长度的增加，所有方法的性能都会在一定程度上下降。但所提出的方法的下降斜率较小，这也证明了它的性能随预测长度的下降最慢，更适合多步预测。

在我们的研究中，关键样本是指在建模过程中提供更多信息的一些样本或最具代表性的样本。找到这些关键样本对于预测建模和实际生产都很重要。如果能够识别出每种模式下的关键样本，那么在注意力计算过程中只需要提取关键样本的特征，就可以获得足够的信息，从而大大减少计算量。所提出的DRI-Forme方法能够通过注意力得分矩阵识别每个模式的关键样本，为后续有效的样本组织提供依据。图9（a）-（e）展示了从模式1中选择的50个样本的五个不同子空间中最后一个编码器层的注意力得分矩阵的热图。可以看出，图中所示的每个子空间标签的关键样本是不同的，主要是因为DRMI SA利用多头注意力来衡量几个不同并行子空间中样本之间的相似性。这也意味着，从多个不同角度测量样本之间的相似性可以确保充分捕捉样本之间复杂的相似关系，这也间接提高了关键样本分析的可解释性。

从图9的热图中，很容易看出不同样品之间的颜色区别。图9中的红色框表示该区域的样本在注意力计算中的颜色辨别更明显，也表示样本更关键。关键样本的数学解释见（21）和（22）。然后，可以清楚地发现，样本{l~5,49}在该层的所有子空间中都是显著的。因此，我们可以直观地发现DMRI Former中的哪些样本是感兴趣的，以及它如何使用注意力热图定位关键样本。这将整个建模过程从黑盒转换为灰盒，从而增强了建模过程的可解释性。通过这种方式，还可以发现其他层的关键样本，并揭示每一层的作用。由于空间限制，本文仅显示了最后一层的注意力热图，即最终关键样本的呈现。

为了提高DMRI Former识别的关键样本的可信度，我们根据所提出的方法计算的注意力得分进行了消融实验。具体来说，以预测长度1为例，构建了比较实验，掩盖了热图识别的关键样本、前50%的注意力得分样本和后50%的注意力评分样本。表四显示了不同掩蔽策略下的实验结果。很容易看出，在掩盖热图识别的关键样本后，模型的性能显著下降。同样，前50%注意力得分样本的模型性能明显低于后50%注意力得分的样本。这主要是因为得分较高的样本在提高模型性能方面非常有用，这也间接说明了关键样本的合理性。

B.加氢裂化工艺

加氢裂化是一种利用氢气作为催化剂，在高温高压下对重油进行加氢、裂化和异构化，将重油转化为轻质油的过程。其简单的流程图如图10所示。轻石脑油是加氢裂化过程的重要产物，由不同的烃类混合物组成。它可以通过脱硫和催化重整进行再加工，以生产高辛烷值的汽油组分。轻石脑油中的C5含量是加氢裂化过程中的重要监测指标。其实时测量是确保过程高效稳定运行的关键。然而，由于测量技术的局限性，只能通过采样和实验室测试进行测量，这导致了巨大的测量延迟。因此，选择43个过程变量作为输入变量，建立预测轻石脑油中C5含量的软测量模型具有重要的工程意义。这些过程变量的详细描述见[38]。

为此，我们从中国的一家石化厂收集了2600个标记样本。为了验证模型的性能，前2200个样本用作训练样本，其中200个样本用于模型验证，其余400个样本用作测试样本。此外，所有数据都经过归一化处理，以确保模型的训练效果。采用试错法寻找超参数的最优组合。表V给出了获得的最佳组合。

表Vl给出了通过上述超参数组合预测加氢裂化过程中轻质石脑油中C5含量的八种方法的实验结果。从表中的实验结果可以看出，静态PCR方法不能获得令人满意的预测结果，特别是在长期的多步预测任务中。尽管LSTnet、SLSTM和STALSTM可以捕获动态演化模式，但由于其递归结构的限制，很难完全提取，这也导致了它们的预测性能仍然不是最优的。由于其稀疏的注意力计算，通知者可能会在多模过程中造成严重的信息丢失。因此，其性能也相对较差。同样，mvtsTransformer无法解决多模数据问题，性能较差。尽管LogTrans通过使用局部卷积克服了这一缺点，但它无法捕捉到模式之间的差异。通过比较所有实验结果，提出的DMRIFormer模型具有最佳的预测性能，这主要是因为它进一步区分了不同模式之间的关系，并更详细地提取了每个样本中的模式信息。

为了直观地看到预测结果，对加氢裂化过程中轻质石脑油中C5含量的八种预测方法的预测曲线和真实曲线进行了比较，如图11所示。可以看出，所提出的DMRI Former在稳定（100-150）和频繁变化（250-400）数据模式期间的预测曲线与真实曲线非常接近。这进一步说明，所提出的模型可以更好地适应多模式工业过程。

同样，图12显示了不同预测长度下所有模型的性能比较曲线，以便更深入地讨论所提出的方法和比较方法之间的差异。可以观察到，DMRI Former也具有较小的斜率，具有最佳的预测性能。这进一步证明，当预测长度增加时，DMRI Former的性能下降速度比其他方法慢。

此外，图13（a）和（b）显示了使用从模式1中选择的50个样本在最后一个编码器层的所有两个子空间的注意力得分热图。同样，关键样品可以通过不同样品的颜色差异很容易地识别出来，如图中红色方框标记所示。因此，获得了对该层建模贡献最大的关键样本，即样本{12,13,15,16,21,2,37}。我们还在这个工业案例中进行了消融实验，以提高DMRIFormer识别的关键样本的可信度。实验包括四种策略：不掩蔽热图识别的关键样本，掩蔽前50%的注意力得分样本，掩蔽最后50%的注意力分数样本。表六给出了相应的实验结果。很容易看出，屏蔽关键样本或屏蔽前50%的样本会使模型下降得更明显，而屏蔽后50%模型的性能下降缓慢。这也间接说明了所提出的DMRI Former方法的关键样本识别的可靠性和关键样本分析的可解释性。

结论

针对工业过程预测领域存在的问题，本文提出了一种新的DMRI Former模型，用于预测建模和关键样本分析。DMRI SA机制旨在充分提取同一模式内的相似性以及不同模式过程数据之间的相互作用。此外，DMRI Former利用注意力得分热图识别不同层中不同模式的关键样本，以提高建模过程的可解释性。与其他先进方法相比，在两个不同工业过程数据集中的实验结果表明，提出的DMRI Formor方法可以实现最佳的预测性能。此外，由于所提出的方法可以准确地识别不同模式数据的关键样本，因此也证明了其在实际工业过程中的可解释应用价值。

因此，我们认为所提出的DMRI Former方法在其他工业现场和工业过程中具有一定的推广性和普遍适用性。在未来的研究中，工作计划利用提出的方法在真实的工业现场执行预测任务，并为现场工作人员提供指导。此外，我们将研究基于实际工业过程中模式变异的在线自适应更新训练策略，以提高模型的泛化能力。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述