【“工业大数据预测”系列】——第2篇:异常数据处理

本文是工业大数据预测系列的第二篇,重点讨论数据预处理中的异常数据处理。通过对工业数据的分析,作者介绍了如何利用第三四分位数法、分位数异常检测、K-Sigma检测和局部异常检测等方法识别并处理无效数据和异常值,以提高模型的鲁棒性和准确性。数据预处理包括无效数据的直接删除和平滑插值填补,以及异常值的hampel滤波处理,确保得到干净的数据集,为后续的预测建模做好准备。
摘要由CSDN通过智能技术生成

前言

  Hi,久等了,这里是工业大数据预测系列的第二篇。

  前面我们提到,工业大数据具有诸多价值,实现工业建模、预测、控制、决策、优化、故障诊断等一系列应用。但工业界追求稳定可靠的目标使得上述应用对数据质量提出较高要求。

  具体而言,工业过程中产生的数据由于传感器故障、人为操作因素、系统误差、多异构数据源、网络传输乱序等因素极易出现噪声、缺失值、数据不一致的情况,直接用于数据分析会对模型的精度和可靠性产生严重的负面影响。因此在建模前,往往需要对数据进行预处理,消除数据中的噪声、纠正不一致、识别和删除离群数据来提高模型鲁棒性,防止模型过拟合。

1 数据来源

  我们以2010年PHM协会(Prognostics Health Management Society)刀具磨损预测数据集来完成工业大数据预测系列文章。数据集共包含了C1 -C6共6份数据,C1、C4、C6为训练集、C2、C3、C5为测试集。每份数据共315个样本,每条样本由7个通道数据组成,所有数据均通过一台高速数控机床在铣削作业下采集获得。

文末扫码关注公众号后回复“2010PHM”获取数据集下载链接。

在这里插入图片描述

  数控机床作业参数说明如下:铣刀主轴转速为10400rpm;x方向的进给速率为1555mm/min;y方向的径向切削深度为0.125mm;z方向的轴向切削深度为0.2mm。
  为了获得高速数控机床作业过程的在线数据,在工件和加工平台之间安装了Kistler公司的3向平台测力计,在加工平台上固定Kistler公司的3向振动传感器,在靠近工件的位置安装声发射传感器,声发射信号主要由于材料内部结构变化造成材料内应力突变引发的弹性波产生而来的;采用Kistler5019A多通道电荷放大器和DAQ NI PCI1200数据采集卡放大和采集加工过程三个方向(x、y、z)的切削力和振动以及声发射信号;各信号的采样频率为50kHz。
  因此,传感器数据由7个通道组成:x、y、z方向的铣削力、x、y、z方向的振动和声发射信号。在完成每个工件表面的铣削后,用LEICA MZ12显微镜离线测量铣刀三个刀面的磨损情况作为每个样本的标签。

csv文件的列 描述
第1列 x轴铣削力(N)信号
第2列 y轴铣削力(N)信号
第3列 z轴铣削力(N)信号
第4列 x轴振动(g)信号
第5列 y轴振动(g)信号
第6列 z轴振动(g)信号
第7列 声发射信号(AE-RMS(V))

2 数据预处理

  在该数据集中,通过对数据样本进行抽样并可视化可以发现数据缺陷主要有无效数据、异常数据两类,其中无效数据具体为进刀无效数据和退刀无效数据,异常数据为因某种原因导致的跳变数值。因此,所涉及到的数据预处理技术一般有缺失值和异常值处理等。

在这里插入图片描述
在这里插入图片描述

2.1 无效数据处理

  根据数据量大小和具体工业应用场景可以分为以下两类处理方式:

  • 直接删除:适合数据量足够大而缺失的数据占比较小的情况

  • 平滑插值填补:当样本数据较少时则可以采用平滑插值填补法,具体有线性插值法、拉格朗日插值法等。

  由于数据采集的频率较高,铣削加工过程的数据点较多,每个样本达到了20余万个数据,因此可以采用直接删除的方法。

  那么如何定位到删除点呢?我们可以采用一个简单的第三四分位数法。具体为:首先计算铣削过程所采集数据的第三四分位数Q3作为进退刀无效数据的临界值;然后从数据第一个值起,依次向后比较过程数据,直到出现第一个大于Q3的数值,记下当前位置,然后截断第一个值至该位置的数据;退刀无效数据则从最后一个值向前比较。
  通过该方法截断的数据如图所示,图中是C1数据集第225个样本Z Force的局部放大图,蓝色实线表示截断后的数据,红色虚线表示被截断的进刀无效数据。退刀数据截断效果与之类似,不再赘述。

在这里插入图片描述

2.2 异常数据处理

  针对工业环境以及数据特性的不同,异常值可以分为点异常值、波动点、集体离群值和明显噪声信号等类型。处理异常值的关键点在于判断异常值,判断异常值的方法主要有以下四种方式:

  1. 恒定阈值检测。通过人工设置数据统计特征中的最大值和最小值来检测数据,当数据波动幅值超出该最大最小值形成的区间,则判定该数据点为异常点。通常有全局阈值设置和分级阈值设置两种,其中分级阈值设置可以根据不同的阈值对应不同的操作。恒定阈值法较为简单,容易实现,但不适用于非平稳信号数据,只在平稳信号数据上有一定的效果,且灵活性较低。

  2. 分位数异常检测。该方法是一种基于统计的方法。把所有的数值从小到大排列,将全部数据等分为4部分,取25%位置上的值为上四分位值,记为Q1;50%位置上的值为中位数,记为Q2;75%位置上的值为下四分位值,记为Q3;四分位距 I Q R = Q 3 − Q 1 IQR=Q3-Q1 IQR=Q3Q1。则异常值的判断依据为大于 Q 1 + k × I R Q Q1+k \times IRQ Q1+k×IRQ 或小于 Q 3 − K × I Q R Q3-K \times IQR Q3K×IQR 的数值,k通常取1.5。

  3. K-Sigma异常检测。设一个服从正态分布的数据集表示为,其中 μ \mu μ为数据集的均值,delta为数据集的标准差。若数据落在( μ − k

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值