Distributed model projection based transition processes recognition and quality-related fault detection 基于分布式模型投影的过渡过程识别和质量相关故障检测
)
ABSTRACT 摘要
本文提出了一种基于分布式模型投影(DMP)的过渡过程识别算法,用于非线性过渡数据的聚类和过渡过程变化的监测。与其他几种识别方法相比,DMP算法既考虑了变量之间的相关性,也考虑了样本之间的相关性。提出了一种将DMP算法与分层聚类相结合的框架,通过对DMP算法进行大量的个体试验,得出最优聚类结果。基于离线分类结果,将过渡过程划分为几个子段,每个子段都可以用一个稳定模型来表征。在此基础上,对各环节建立的子模型进行在线识别和监测。最后,利用Tennessee Eastman (TE)基准流程来演示所提出的流程识别和监控策略的性能。与以往的工作相比,该算法在识别和监测方面都具有优越性。
Keywords 关键词
Transition process 过渡过程
Distributed model projection 分布式模型投影
Hierarchical clustering 分层投影
Transition identification 过渡识别
Fault detection 故障检测
Introduction 引言
近年来,基于数据的多变量校准方法(multivariate calibration methods)已广泛应用于现代工业中,用于过程监控和诊断[1,2]。其中,经典的多元统计过程控制(MSPC)算法在过去几十年中取得了巨大的成功,如主成分分析(PCA)、偏最小二乘(PLS)、主成分回归(PCR)、核偏最小二乘(KPLS)及其高级变体[3-7]。
然而,大多数这些方法都假定在单一和稳定的操作条件下运行。在大多数情况下,由于原材料的波动、设定点的变化、设备的老化和调味效果,实际工业过程在不同的条件下运行。为了解决这一问题,人们提出了许多方法来实现多模式建模和过程监控[1,8 - 13]。特别是Zhu等人[14]提出了一种多模式识别的聚类方法,其中采用了集成聚类算法。然而,集成聚类的性能取决于聚类方法初始值的选择。Zhang等人[12]提出了一种子空间分离方法,使用公共子空间和特定空间来描述多模特性。实际上,由于多模过程的复杂性,很难明确地构造这两个子空间。
我们还注意到,一个稳定的运行状态不能立即切换到另一个,这表明在两个相邻的稳定模式之间存在过渡。()对于多模式建模和监控,也应该考虑这些不稳定的过程。使用传统方法,这始终是一个具有挑战性和复杂的问题。为了过渡识别和监测,Zhao等[15,16],Ge等[17],Wang等[18],Tan等[19]和Yao等[20]近年来提出了不同的算法用于稳态和暂态过程识别以及多模式监测。在上述方法中,应在离线步骤中识别多模过程中的过渡,以便使用适当的训练瞬态数据建立校准模型。在Zhao的方法[15]中,瞬态过程的持续时间被定义为从稳定模态的中心到邻近模态的中心,以便能够使用足够的观测值来描述过渡过程。转换过程识别方法是手动设置的,而不是基于过程数据进行识别。根据这样的定义,稳定模态会消失,整个过程只由几个转变组成,这是很不合理的。Wang的方法考虑了过程信息,提出了一种完整的过渡过程识别和建模方法。在王的方法[18],通过k-means方法将瞬态过程分成几个子段,并使用线性模型对每个子段进行表征。遗憾的是,不同样品之间的欧几里得距离并不能完全揭示复杂化学过程的变化和趋势[21,22]。在过去的几十年里,MSPC方法已经在化学过程建模中证明了自己。因此,Yao等人[20]使用了一系列不同的PCA模型来描述化学过程的行为。为每个子段建立单个PCA模型,采用PCA相似度指数分析各子段之间的差异。结果表明,不稳定的非线性过渡过程可划分为几个近似稳定的线性过程,在这些过程中可以使用经典的MSPC方法。但在实际应用中,各子模型变量关系线性相关的假设仍然是不成立的。
为了解决上述问题,本文提出了一种分布式模型投影(DMP)算法。在DMP算法中,通过迭代方法识别过渡过程。由于一个过渡的开始部分与结束部分有很大的不同,所以我们仍然假设一个过渡可以分成几个子模型,在这些子模型中,它可以被视为一个稳定的过程。采用减法聚类算法(SCM)可以合理地确定聚类的数量。这些clusters 中的每一个都应该是一个稳定模态或过渡态。同时,过程数据与质量数据之间的非线性关系也是化工过程中的一个重要问题。为此,提出了使用KPLS模型来描述过程行为的DMP算法。该算法从多个初始模型开始,这些模型由每个聚类中的随机初始化数据建立。为了准确地捕捉过程的特征,避免单次观测产生的噪声,采用经典的移动窗口策略,在整个过程中创建多个重叠的窗口。根据主成分相似度理论[23],具有相似主成分子空间的两个数据块可能具有彼此相似的统计特征。换句话说,当两个预测误差较小的数据块被投影到同一个模型时,就认为这两个数据块是相似的。因此,将多模过程中的每个移动窗口投影到初始模型中,计算相应的预测误差。将模型误差最小的窗口分配给相应的集群。通过这种方式,转换过程最初被识别并划分为几个部分(子模型)。
在现有模型的基础上,每个聚类中的窗口在统计上彼此相似。然而,需要注意的是,初始模型是基于随机初始化数据建立的。因此,应该使用每个集群中的所有可用样本来更新这些模型。在导出新模型后,将所有窗口投影到这些模型上,以确定每个窗口的新分配。然后继续迭代,直到聚类结果中没有发现进一步的变化。在每个单独的集群中,统计上相似的窗口被分组在一起,不相似的窗口被分配到不同的集群。DMP算法的聚类结果表明了不同运动窗口之间的相似性。
此外,DMP算法被认为是一种可能收敛到局部最优解的非分层聚类方法[21,22]。这意味着使用DMP算法进行一次聚类的结果可能与另一次聚类的结果不同。与非层次聚类方法相比,层次聚类方法可以得到全局最优解。为了获得全局最优聚类结果,将大量DMP试验的聚类结果结合起来,采用层次聚类方法。由DMP算法得到的相似度信息可以作为任何常用分层方法的输入。
在识别过渡过程后,可以推导出相应的故障检测方法。对于大多数多模式过程监控方法来说,它只涉及过程数据,可以监测过程的异常情况,而不能检测到最终产品质量的变化。当质量数据可以测量时,还应包括过程变量与质量变量之间的关系,以增强过程和质量监控的能力。在化学计量学领域,已经提出了一些用于单模和多模过程建模的监督方法[11,24]。然而,与质量相关的过渡过程监测却很少受到重视。因此,本文还研究了一种与质量相关的过渡故障检测方法。
本文的其余部分组织如下:第2节给出了过渡过程的简要描述。第3节明确介绍了DMP算法的离线过渡识别和分层聚类解释。然后,在第四节中介绍了一种在线识别和质量相关过程监控方法。第5节演示了一个TE基准过程,以评估所提出方法的性能。最后,得出了一些结论。
2. Transition process description and analysis 过渡过程描述和分析
与稳定模式不同,过渡过程是从一种稳定模式到另一种稳定模式的趋势。因此,由于变量之间的复杂关系,使用传统的MSPC方法无法很好地描述过渡的统计特征。在每次过渡开始时,统计特征与之前的稳定模式相似。最后,它与下面的稳定模式类似。因此,使用经典的稳定模态方法很难处理转换建模和监控问题。此外,考虑到工业过程中控制回路的存在,“不规律性”‘irregularity’ 有时会发生在过渡过程中[15,16,25]。这意味着当前的样本可能包含与之前几个采样间隔的样本相似的特征。
考虑到过渡的统计特性,本文采用了多个识别和建模步骤。首先,利用DMP算法将观测值划分为多个聚类,其中单个聚类可以展示稳定过程,而过渡过程包含多个较小的子模型,从而可以在每个聚类中使用传统的MSPC方法。然后在各稳定和暂态模式下建立相应的过程监控方案。一个新的样本一旦被测量,就需要被分类到一个特定的簇中。然后利用相应的故障检测算法对样本进行监测。在接下来的两节中,将详细介绍离线识别和在线识别算法。
3 Offline multimode identification and transition recognition 离线多模态识别和过渡过程识别
多模过程通常由几个稳定过程和过渡组成。通常,在线监测前应识别不同的稳定过程和过渡。传统的聚类方法主要基于欧氏距离进行聚类。因此,强调不同样本之间的关系,认为两个样本之间欧几里得距离较小的样本属于一个聚类[18,22]。在假设不同变量之间的关系很简单的情况下,它可能会起作用。考虑到过程控制的复杂性,这种假设在连续化工过程中往往是不成立的。通常,化学过程包含变化,特别是峰和谷,因此仅用传统的基于欧几里得距离的聚类方法来描述过程的行为是困难的。在过程控制和故障检测方面,MSPC方法取得了越来越多的成功,如PCA和PLS,将MSPC方法引入到过程分析和多模式识别中更为合适。受主成分相似度分析[23]的启发,当两个数据块相对于同一模型的残差都非常小时,认为两个数据块彼此相似。事实上,单个模态可以解释为一组具有相似特征的样本,这些特征可以通过单个MSPC模型很好地揭示。通过计算相应的模型残差,将过程划分为几个段,每个段都可以通过MSPC模型表示。在DMP算法中,窗口之间的相似性被解释为一种模型适应度,而不是欧氏距离。此外,DMP算法与其他非分层方法一样,可能会收敛到局部最优解。因此,3.3小节将采用一种利用DMP算法结果的分层聚类方式,给出全局最优聚类结果。由于非线性是大多数工业过程的共同特性,考虑到变量之间的非线性相互关系,DMP算法采用经典的KPLS模型,同时它也可以很容易地用于与质量相关的故障检测。此外,模型投影采用经典的移动窗口策略来捕获一段时间的观测值。这将有助于通过时间段而不是单个样本来理解和分析过程的行为。窗长L和窗移动步长M的确定是一个很重要的问题,前人的研究已经对此进行了明确的讨论[14]。关于移动窗口参数的选择,请参考Palazoglu的著作[14,26]。首先,在下一小节中首先介绍KPLS模型,以便更好地理解DMP算法。
3.1 Preliminaries 预备知识
3.1.1 KPLS modeling
在PLS中,提取了过程变量和质量变量之间的关系。由于它们之间的相关性在大多数化学物质中是非线性的,因此本文采用核PLS模型,其表示为:
Φ
=
T
P
T
+
E
Φ = TP^T+E
Φ=TPT+E
Y
=
T
Q
T
+
F
Y=TQ^T+F
Y=TQT+F
其中
Φ
=
[
φ
(
x
1
)
T
,
φ
(
x
2
)
T
,
…
]
T
∈
R
N
×
S
Φ=[φ(x_1)^T, φ(x_2)^T,…]^T∈R^{N×S}
Φ=[φ(x1)T,φ(x2)T,…]T∈RN×S是过程数据
X
X
X的核,
φ
φ
φ表示非线性映射
测试数据的质量预测可计算如下:
其中,
K
t
K_t
Kt和
K
K
K分别为测试数据和训练数据的核矩阵。
T
=
[
t
1
t
2
…
t
A
]
T=[t_1 t_2…t_A]
T=[t1t2…tA],
U
=
[
u
1
u
2
…
u
A
]
U=[u_1 u_2…u_A]
U=[u1u2…uA]分别是训练集上过程数据质量数据在特征空间上的得分矩阵。(are score matrices for process and quality data in the feature space of training data, respectively.)
A
A
A表示主成分的个数。
Y
Y
Y为训练质量数据。
N
t
N_t
Nt个样本、
q
q
q个变量对检测质量数据$ Y_t (N_t×q)$的预测误差可计算如下:
有关KPLS建模的更多细节,请参考先前的工作[27-29]。设预测误差对应的残差平方和为
其中, e i j , t e_{ij,t} eij,t表示残差矩阵 e t e_t et中的一个元素。由Eq.(3)可知,如果某个KPLS模型的预测残差足够小,则可以很好地描述测试数据。
3.2 DMP algorithm (DMP算法)
在本小节中,将详细介绍DMP算法。DMP算法以迭代的方式实现。在每次迭代运行中,将整个过程中重叠的移动窗口投影到一系列的KPLS模型中。根据相应的残差将窗口分配给正确的聚类。在接下来的运行中,每个聚类中的所有样本建立新的KPLS模型。然后通过计算相对于新模型的残差将窗口重新分配给每个聚类。当聚类结果不再出现进一步的变化时,本试验的迭代过程停止。
通常,为DMP算法选择初始模型是很重要的,该算法通常从预定义数量的集群开始。然而,在工业过程中,集群的数量总是未知的。本文引入SCM来估计集群的数量[30]。由于过渡的开始部分与结束部分非常不同,因此可以将连续的瞬态过程大致分为几个小的子段,每个子段都随机初始化以创建初始KPLS模型。
参数初始化完成后,利用初始KPLS模型将移动窗口分类到不同的聚类中。很容易理解,当数据对特定模型的预测误差足够小时,模型就能很好地拟合数据。在本文中,将过程中的移动窗口投影到初始KPLS模型中,以确定它们被分配到哪个聚类。因此,该算法被命名为分布式模型投影。在单次运行中完成投影后,这些窗口被分类到不同的集群中。在每个集群中,窗口彼此相似。为了准备下一个窗口投影,KPLS模型也应该基于每个聚类中的当前样本进行更新。因此,导出新的KPLS模型,并将继续投影,直到聚类结果不再存在进一步的变化。综上所述,DMP算法的原理图如图1所示,使用DMP算法的聚类步骤如表1所示。
3.3 Hierarchical aggregation for the DMP algorithm (DMP算法的分层聚合)
作为一种非分层聚类方法,DMP算法的迭代会快速收敛到局部最优解[21,22]。因此,通过汇总大量个体DMP试验得出的聚类结果,采用了分层方式。第二次试验中使用DMP算法的聚类结果记为
G
b
G_b
Gb
(
b
=
1
,
…
,
B
)
(b=1,…,B)
(b=1,…,B)。
G
b
G_b
Gb为
N
b
×
C
N_b×C
Nb×C二进制矩阵,其中
N
b
N_b
Nb为窗口数,
C
C
C为簇数。
g
b
g_b
gb表示
G
b
G_b
Gb在
(
n
w
,
c
)
(nw, c)
(nw,c)处的一个元素,如果在第
b
b
b次DMP实验的最后一次聚类结果中, 第
n
w
nw
nw个窗口被分配给第
c
c
c个聚类,则
g
b
gb
gb设为1。
G
b
G_b
Gb的每个元素可以表示为:
通过将所有
B
B
B个单独DMP试验的聚类结果连接起来实现分层聚合:
G
a
l
l
=
[
G
1
,
G
2
,
…
,
G
B
]
G_all=[G_1,G_2,…,G_B]
Gall=[G1,G2,…,GB]
则得到
N
×
N
N×N
N×N相似矩阵,如下所示:
其中1 是一个由1组成的矩阵(单位阵吧)。
R
w
z
R_{wz}
Rwz是
R
R
R的一个元素,表示窗口
w
w
w和窗口
z
z
z之间的不相似性。注意,不相似性矩阵可以作为任何常见分层解释的输入,以给出图形树状图,这表明全局最优聚类结果。
对于单个样本,由于移动窗口的利用,它可能属于不同的聚类。因此,每个聚类边缘的样本应该被分类得更清楚。不同聚类之间的边是基于概率的概念确定的。假设
n
i
,
l
n_{i,l}
ni,l是第
l
l
l个样本分配给第$i $
(
i
=
1
,
…
,
C
)
(i=1,…,C)
(i=1,…,C)个簇的次数。概率估计如下:
果 P i , l P_{i,l} Pi,l比 P i + 1 , l P_{i+1,l} Pi+1,l大,可以认为第 l l l个样本属于第 i i i类。
3.4 Multimode identification and transition recognition(多模态识别和过渡过程识别)
在获得全局最优聚类结果后,还需要明确每个聚类是属于稳定过程还是属于过渡过程的一部分。在此基础上,分析了过渡的统计特征。与稳定模态不同,跃迁的特征可以概括为:
1)与稳定模式相比,转换的持续时间要短得多。
2)跃迁只发生在两个不同的稳定模之间。
3)“不规则”有时会发生在过渡中。
4)相邻小样本点之间的过渡状态可能保持稳定。
由于这些原因,下面讨论了一些参数来区分稳定过程和过渡。由于跃迁的持续时间比稳定模短得多,因此将γ定义为一个稳定模的最小长度[18]。如果一个段的长度大于γ,则认为它是稳定模态。否则,它可能属于过渡,不能很好地描述稳定模态的特征。
如果在两个相同的稳定模型之间识别出一个子模型,则认为该模态是由系统噪声引起的,而不是暂态模态。此外,一个转换中的两个独立段共享相同模型的情况被认为是正常的。后一段被视为一种“不规则”[25,31]。
如果一个暂态段的长度小于定义为暂态段最短持续时间的
β
β
β[18],则该段被视为噪声,应删除。请注意,瞬态子段的持续时间与稳定模式或噪声的持续时间大不相同。因此,选择参数γ和β是非常方便的。为了更好地理解离线转移识别,图2给出了一个简单的例子。
在图2中,一个包含两个稳定过程和一个过渡的过程被分为6个集群,其中包含10个段。认为长度大于γ的段为稳定过程。因此,将段1、8和10聚类为稳定进程。其他部分可能属于过渡过程。同时,长度小于β的片段4被认为是噪声,需要删除。段5和段7共享相同的模型。在片段7中可以清楚地看到“不规则”。网段8和网段10属于同一个集群。因此,段9不是暂态段,应该删除。对离线过渡识别进行分析后,对识别结果进行修改,如图3所示。即线段i和线段vii属于稳定模态。同时,段ii-段vi属于暂态过程。
在上述情况下,整个过程可以分为6个不同的集群。这些聚类都有相应的KPLS模型,该模型揭示了不同类型的数据相关性。多模离线识别流程图如图4所示。
4 Online identification and fault detection for multimode processes(多模态过程在线识别和故障检测)
在使用离线DMP算法识别过渡后,还可以进行质量相关故障检测算法。首先,讨论了在线样品识别。通常,系统状态停留在稳定模式,在稳定模式后开始过渡。当前在线样本用第h个样本表示。首先,应该明确第h个样本从哪个稳定模态开始[18]。假设存在少量不同的稳定模态,每一种稳定模态都用KPLS模型来描述。
为了对在线样本进行监测,本文采用了Hotelling’s T2统计量和SPE统计量。统计量T2可以是:
T
2
=
t
t
Λ
−
1
t
t
T^2=t_tΛ^{-1}t_t
T2=ttΛ−1tt
式中
t
t
t_t
tt为测试数据对应的分数向量,$Λ =
1
N
T
T
T
\frac{1}{N}T^TT
N1TTT $表示分数矩阵T在训练数据特征空间中的协方差。每个样本的统计量SPE可以定义如下[32]:
S
P
E
=
e
t
e
t
T
SPE=e_te_t^T
SPE=etetT
T
2
T^2
T2和SPE的置信限可进一步定义为:
其中α为显著性水平。ξ和ς分别为SPE统计量的幅度和自由度。这两个参数可以近似表示为
ξ
=
b
/
2
a
ξ = b/ 2a
ξ=b/2a和ς =
z
a
2
/
b
za^2/b
za2/b,其中a和b分别是估计的均值和方差[32]。
多模式过程在线识别的主要步骤可以概括如下:
1)利用所有small稳定模态的控制限,确定h−1个样本属于哪个稳定模态。如果
T
2
T^2
T2和SPE小于稳定模型
i
i
i的相应控制限,而超过稳定模型
j
j
j的控制限
(
j
≠
i
)
(j≠i)
(j=i),则认为第
h
−
1
h−1
h−1个在线样本为正常样本,属于
S
i
S_i
Si。转到步骤2。如果
T
2
T^2
T2和SPE超出了所有可能模型的相应控制限,则认为是故障样本,并报警;
2)假设第
h
−
1
h-1
h−1个样本属于聚类
i
i
i,使用
S
i
S_i
Si的控制限监测第
h
h
h个样本。如果
T
2
T^2
T2和SPE在模型
i
i
i的控制范围内,则仍将第
h
h
h个样本视为
S
i
S_i
Si的样本,下一个在线样本将使用相同的模型进行监测。否则,第
h
h
h个样本可能属于过渡或某种断层,进入步骤3;
3)利用连续瞬态子模型监测第
h
h
h个样本。根据工业生产的实际情况,工艺切换轨迹始终是固定的 以生产标准化材料。如果流程操作状态发生变化,则必须切换到特定瞬态流程的开始,而不是切换到其他子模型。因此,如果第
h
h
h个样本对后续子模型的统计量仍然超过相应的控制极限,则可以认为第h个样本是故障样本。否则,将认为第h个样本属于此转换,其余在线样本将以相同的方式识别。
过渡样在线识别监测流程图如图5所示。
5 Case study (案例研究)
5.1 TE process description and simulation design(TE 过程描述和仿真设计)
田纳西伊士曼(TE)工业流程被广泛用于演示各种监控方法,主要由五个工作单元组成。在图6所示的TE过程中,收集了41个测量值和12个操纵变量。更详细的TE基准设置请参考Chiang的著作[33]。为了证明该算法在转移离线识别方面的优越性。在此基础上,设计了具有6种不同稳定模态的案例。因此,在这些稳定模式之间有五种转变。本案例中收集了60000个样本用于离线过渡识别。在之前的论文中,通常选择33或16个变量进行过程建模和监控方法验证。这些选择的主要目的是强调数据内部关系,而忽略过程结构。在这种情况下,选择流6中的所有质量变量是为了显示单个流中输出变量的变化。为了降低在线和离线步骤的计算复杂度,不选择变化较小的过程变量。因此,使用28个选定的过程变量。系统的维度为60,000×34,其中28个过程变量和6个质量变量分别如表2和表3所示。工艺变量和质量变量的详细轨迹如图7所示。
5.2 Offline transition identification(离线过渡识别)
本文将提出的DMP算法应用于离线识别。为了更好地理解边缘的确定,采用了移动窗口策略,并推导了窗口参数。在本案例研究中,窗口参数L=19, M=7根据Zhu的工作[14,26]选择。整个过程有8569个重叠窗口。聚类结果树状图如图8所示。
不同的分支对应不同的窗口簇:1A(7239-8569和5721)、2A(5821 - 7147和3091-3092)、2B(7149-7238)、3A(1-1445和4290)、3B(1446-1696)、4A(1697-2856)、4B(2857-3090和3093-3140)、5A(3141-4289)、5B(4291-4381)、6A(4382-5720和7148)、6B(5722-5820)。需要注意的是,4B部分有4个小分支(2857-2864 | 2865-2884 | 2885-2975和3093-3140 | 2976-3090)。而在部分2B(7149-7155 | 7156-7167和7190-7236 | 7168-7189),3B(1446-1490和1514 - 1568 | 1491-1513 | 1569-1694),5B(4291-4300 | 4301-4326 | 4327-4381)和6B(5722-5729 | 5730-5755和5775-5820 | 5756-5774)中分别发现了3个小分支。根据Eq.(7)中的概率,将窗口聚类结果转化为样本聚类结果。在这个过程中,有30个不同的片段被分为22个不同的集群。10个最大段的持续时间分别为10108、9373、9343、9289、8134、8043、882、805、637和385个采样间隔。可以看出,8043和882的采样间隔有很大的差异。持续时间为8043的段最有可能是稳定模式。持续时间为882的部分可能是过渡时期的一个子部分。根据3.4小节的规则,定义γ为最短稳定模态持续时间。因此,γ设为8043[18]。最短的10个片段的持续时间分别为7、7、7、14、49、52、56、70、84和133个采样间隔。根据Wang的方法[18],β被设置为49,因为很难表征少于49个样本的片段。因此,持续时间小于49的片段被认为是噪声,这些片段应该被消除。最终的离线识别结果如**图9(a)**所示。
为了评价算法的性能,采用Wang[18]中的ICA-PCA方法进行比较。两种方法的离线识别结果如图9所示。如图9(a)所示,利用本文提出的方法可以清晰地识别出六种稳定模态(S1-S6)。同时,转换的统计特征可以用几个较小的子模型来描述,并且这些转换中存在几种“不规则性”。“不规则”现象分别在10597 - 10981、21650-21985、40424 - 40745和50329-50657处被发现。在这些过渡中,数据的统计特征与之前几个采样间隔的样本相似。这意味着在这些转变中有明显的波动。这些样本被认为是正常过渡的一部分,而不是噪声子段。在图9(b)中,使用Wang的方法也可以识别出六种稳定模态。然而,由于该方法主要由欧几里得距离决定,在T23S1和T56S1等一些过渡的边缘会发现不匹配。在Wang方法[18]的聚类结果中,同一聚类中的样本可能没有相似的变量相关性。此外,“不规则”被认为是噪音,应该消除。因此,在一些过渡中会有一些缺失。为了更全面的描述,使用DMP算法和Wang的方法对第17000 - 25000个样本的识别结果分别如图10和图11所示。在图10中,“不规则”发生在21650-21985。转型分为五个阶段,可以用四个子模型(T23S1、T23S2、T23S3和T23S4)来描述。第五部分和第三部分共享T23S3型号。
在图11中,过渡被分为四个部分,每个部分都有各自的模型。同时,从21374到21635发现了一个“不规则”。不幸的是,这种不规则被认为是一个噪声段,在Wang的方法[18]中应该被消除,这样就可以选择“不规则”的相邻段进行在线识别和监测。例如,一个在线样本,它应该聚类到不规则,可能在过渡中被识别到另一个片段。它会增加I型和II型错误的风险。从17000到25000个样本中34个变量的轨迹如图12所示。可以看出,使用本文算法进行离线识别的结果与实际情况相似。同时,使用Wang的方法在稳定模式和跃迁识别中都发现了不匹配。
5.3 Online monitoring for transitions(在线过渡过程监测)
在本例中,使用另外5000个在线样本(包括两个稳定模式和一个过渡模式)来验证在线监测性能。两种稳定模式分别属于S2和S3。过渡属于T23。在第1500次采样时,系统状况发生变化。在第1700次在线采样中引入了三个故障,分别是阶跃故障、噪声故障和分离器电平设定点的斜坡故障。为了验证所提出的监测算法的优越性,还采用Wang的方法进行对比[18]。
采用本文算法对故障数据和正常数据的监测结果如图13所示。在**图13(a)和(b)中,除了每个聚类的边缘外,正常数据的虚警率都很低。这些模型在这个过程中适合大多数样品。在 图13 ( c ) 和(d)**中,当系统状态发生变化时,监测模型会立即切换,1500 - 1700的样本的虚警率也很低。然后在第1700个样本处引入阶跃故障,并可以通过两个统计量立即检测到。使用T2和SPE统计数据,第1737个样本和第1755个样本分别出现告警。故障也可以通过后续的模型进行检测。图13( c ) - (h)分别为斜坡故障和噪声故障的监测结果。可以看出,这两种故障都很快被检测到。此外,在这两个统计中,误报率都保持在非常低的水平。
图14为采用Wang方法对正常数据和故障数据的监测结果。稳态模式监测采用主成分分析法,过渡模式监测采用ICA和PCA。利用独立分量分析对过渡过程中的非高斯分量进行监测,利用主成分分析对残差部分进行监测。对于大多数样本,使用ICA不能很好地检测到这三种故障。虽然PCA的监测结果比ICA的监测效果好,但是时延仍然很大。此外,当发生噪声故障时,监测结果会变差。几乎一半的缺陷样品没有被检测出来。这主要是因为在在线步骤中存在离线误分类和模型不匹配。在王的方法中,“不规则”被认为是噪音,应该被删除。因此,没有相应的训练样本。此外,T23的第一部分在离线识别中也被误分类。
因此,应该作为“不规则”聚类的在线样本被错误地分类到其他部分,这可能会提高缺失报警率。此外,与Wang的ICA-PCA监测方法相比,我们提出的算法考虑了过程数据和质量数据之间的相关性。利用KPLS模型监测系统的过渡和稳定模式。与ICA-PCA相比,KPLS在过渡模式和稳定模式下的监测结果都具有更好的性能。两种方法的故障检测率和漏警率如表4所示。
上述仿真结果表明,本文方法的优越性主要体现在两个方面。首先,本文提出的离线识别算法能够很好地识别过渡模式和稳定模式。离线识别结果与真实情况基本一致。此外,在离线步骤中也强调了过渡中的“不规则性”。其次,利用本文提出的质量相关在线故障检测方法,快速准确地检测出生产过程中的故障。所有的故障一旦发生,可以立即检测出来,同时将虚警保持在非常低的水平。
6 Conclusion (结论)
本文提出了一种新的多模式质量识别和过程监控算法。首先,提出了一种基于DMP的离线多模识别方法。与稳定模式不同,过渡过程被分成几个小的部分,每个部分都由单个KPLS模型演示。然后使用所有个体DMP试验的聚类结果实现分层解释。从理论和实验两方面对跃迁中的“不规则性”进行了分析和验证。离线辨识完成后,根据建立的模型进行在线过渡辨识和过程监控。最后,利用田纳西伊士曼过程对所提算法的有效性进行了评价。与传统的监测方法相比,所提出的方法在离线识别和在线监测方面都具有优越的性能。