基于ICA的线性监督分类的故障诊断方法-I2统计量的计算

最新推荐文章于 2024-06-22 17:36:28 发布

And_ZJ

最新推荐文章于 2024-06-22 17:36:28 发布

阅读量2.1k

点赞数 1

分类专栏：故障诊断机器学习文章标签：故障诊断 ICA

本文链接：https://blog.csdn.net/And_ZJ/article/details/90578511

版权

故障诊断同时被 2 个专栏收录

5 篇文章

订阅专栏

机器学习

4 篇文章

订阅专栏

本文介绍了ICA+I2统计量用于故障诊断的方法。先对训练集样本进行数据预处理和ICA分解，选取d个分量计算I2统计量。因ICA假设无法求公式化概率分布，采用核密度估计法求I2统计量控制限。若新样本I2值小于控制限，系统正常，反之则判定故障。还提及DICA+I2统计量，生成过程同DPCA。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ICA+I2统计量

数据预处理

训练集样本（只有正样本）为 ${{\rm{X}}_{{\rm{n*m}}}}$ （需要列均值为零，似乎可以不用z-score归一化，只保证列均值为零），每行一个样本，样本数目n，特征维度m。

对 $X$ 进行ICA分解（可用sklearn库的FastICA计算）：
${{\rm{X}}_{{\rm{n*m}}}}{\rm{ = }}{{\rm{S}}_{{\rm{n*m}}}}{\rm{A}}_{{\rm{m*m}}}^{\rm{T}}$

${{\rm{S}}_{{\rm{n*m}}}}{\rm{ = }}{{\rm{X}}_{{\rm{n*m}}}}{\rm{W}}_{{\rm{m*m}}}^{\rm{T}}$

对于第 $i$ 个的样本 $x_{i(m*1)}$ ，变换是：
${x_i}{\rm{ = A}}{{\rm{s}}_i}$

${{\rm{s}}_i}{\rm{ = W}}{x_i}$

其中， ${\rm{S = (}}{{\rm{s}}_{\rm{1}}}{\rm{,}}...{\rm{,}}{{\rm{s}}_{\rm{n}}}{{\rm{)}}^{\rm{T}}}$ 是分解之后的统计独立的分量，A称作混淆矩阵，W称作解混矩阵（每行是一个分量）。

从W中选取d个分量出来，作为变换矩阵 $W_d$ ，选取方法有：

选择前d个具有最大向量无穷范数的分量
选择前d个具有最大向量二范数的分量。（或者其他选法）（采用sklearn库的FastICA时，建议n_components参数设置为上述m，然后按此法选择d个分量，而不是直接设置为d）

一般选择样本的d个统计独立的分量进行计算：
${{\rm{S}}_{{\rm{(n*d)}}}}{\rm{ = }}{{\rm{X}}_{{\rm{n*m}}}}{\rm{W}}_{{\rm{d*m}}}^T = {({s_{1(d*1)}},...,{s_{n(d*1)}})^{\rm{T}}}$

$I^2$ 统计量的计算

首先经过FastICA变换，得到n个样本的所有源信号s（d维）组成的源矩阵：
${{\rm{S}}_{{\rm{(n*d)}}}}{\rm{ = }}{{\rm{X}}_{{\rm{n*m}}}}{\rm{W}}_{{\rm{d*m}}}^T = {({s_{1(d*1)}},...,{s_{n(d*1)}})^{\rm{T}}}$
计算n个样本的 $I^2$ 统计量的值，第 $i$ 个样本的 $I^2$ 值（注意 $s_i$ 是d维）：
${\rm{I}}_i^2{\rm{ = s}}_i^{\rm{T}}{{\rm{s}}_{\rm{i}}}$
对于新样本，在均值化和FastICA分解时，均使用训练样本集的参数（如向量均值，还有上述变换矩阵 $W_d$ 等）进行操作。最后求出新样本的 $s_i$ 值后，再求取新样本的 $I^2$ 值。

$I^2$ 统计量的控制限

由于ICA是基于源信号中至多存在一个高斯的假设，因此无法求出公式化的概率密度或概率分布函数。所以，采用核密度估计法（Kernel density estimation）求取。步骤如下：

首先，使用滑窗法，估计出比较合适的概率密度函数（注，应是所有正常样本的 $I^2$ 值，构成的一维向量） $p({I^2})$ 。（可使用sklearn库的KernelDensity）。此处求取的即是正常样本的 $I^2$ 值分布情况。类似于横坐标是 $I^2$ 值，纵坐标是该 $I^2$ 值出现的频次（概率）。注：尽管上述公式求解的 $I^2$ 应大于等于0，但估计出来的概率密度函数，在负数区域的概率密度可能并不为零。
求出0.99置信位置处的 $I^2$ 值作为控制限 $I_{\alpha}$ 。

一个使用面积积分法的0.99置信位置估计方案（应该有更好的方案）：在足够大的区间内（应涵盖上述概率密度函数所有非零函数值的横坐标范围），以非常小的步长，生成一系列的点（即横坐标的值），求取所有点对应的概率密度函数值，以步长作为积分区间的宽，以该区间左侧或右侧的点的概率密度值作为高，求出该小区间的面积。求取所有小积分区间的面积和作为概率为1时的总面积值。然后，从左至右累加小积分区间的面积，当达到总面积的0.99时，此时积分区间所在的横坐标值可作为置信度为0.99时的置信位置，即控制限值。（注：此方案暂未找到合适的文献作为论证。若发现误差很大，先尝试提高FastICA的迭代次数和收敛精度，在考虑这里的方案是不是有问题。没有找到合适文献的意思就是不知道别人论文里这一部分究竟是怎么实现的。哭）

故障判定

若系统正常运行，新样本的 $I^2$ 值应满足 ${I^2}<{I_{\alpha}}$ ，反之，认为出现故障。

参考文献

Lee, Jong-Min, ChangKyoo Yoo和In-Beum Lee. 《Statistical process monitoring with
independent component analysis》. Journal of Process Control 14, 期 5 (2004年8月1日): 467–85. https://doi.org/10.1016/j.jprocont.2003.09.004.

Hsu, Chun-Chin, Mu-Chen Chen和Long-Sheng Chen. 《A Novel Process Monitoring Approach
with Dynamic Independent Component Analysis》. Control Engineering Practice 18, 期 3 (2010年3月): 242–53. https://doi.org/10.1016/j.conengprac.2009.11.002.