面向污水处理过程的预测元⁃RVM 故障诊断建模(程洪超 吴菁 刘乙奇† 黄道平):------------BSM1
基于St a c ki n g 不平衡分类算法 的 污水处理故障类别诊断模型(许 玉 格 , 莫 华 森 , 杨 舒 乔):(在这篇文章中用到了UCI关于污水的数据集,共527个样本)
对污水处理过程故障监测的重要性的描述:
污水处理过程非常复杂,包含一系列物理作用和生化反应,具有大滞后、非线性强干扰的特点。由于影响污水处理过程的因素众多,实际的污水处理厂在系统运行时难免会出现异常情况,**而当污水处理系统处于故障的运行状态时,会导致出水水质不达标,进而对水资源造成二次污染的问题。**因此,运用有效的故障诊断技术对污水处理过程中的系统运行状态进行准确的监测,及时诊断出故障状态并采取对应的恢复措施是非常必要的。
对故障监测、判断、诊断进行了定义:
故障检测是整个故障诊断流程的第一步,在该步骤中,系统从设备的传感器上定时采集并记录数据信号,再提取并分析采集到的的数据信息对系统运行状态做出判断。当检测到系统存在故障状态后,对该故障状态的故障类型做出判断的过程称为故障判断.这是故障诊断流程的第二步。进行完前两个步骤后,需要根据系统故障信息准确定位到故障发生的位置以及产生的原因,这是故障诊断流程的第三步,这个步骤为故障恢复提供了更为细致的辅助参考依据。故障诊断的最后一个步骤为故障恢复,通过参考前几个
对数据集的描述:
在整个污水处理过程中,能产生影响的参数众多,这使得污水生化系统变得非常复杂,当某些参数发生异常就有可能使得污水处理过程出现运行故障,导致污水处理的效率下降.本文采用的污水处理数据集来源于UCI(UniversityofCalifornia IrvineUCI机器学习数据库[131.目前已有很多人工智能污水处理故障诊断领域的团队在相关论文中使用该数据集[5-8,12-13].该数据集历时两年时间在西班牙Manresa镇上的一个污水厂上以平均每天1个样本的频率采集得到,共获得527个样本.数据集有38个特征属性,其中有29个特征属性的数据通过污水处理厂的传感器对污水测量获得:9个属性通过系统的实验室分析经净化处理的污水得到.包括进水流量、pH值、入水出水BOD浓度、入水出水COD浓度、进水悬浮固体和进水导电率等.由于样本中某些属性值缺失.本文采用近邻均值填补法对不完整的污水样本数据进行填补,分别取缺陷数据近邻的5个数据的对应属性均值来作为缺陷数据的填补值.被监测的污水处理系统共有13种状态,经简化,将污水处理系统运行状态分为4大类,每类样本分布如表3所示.其中类别1为正常运行情况.类别2为参数浓度超过平均值的正常运行情况.类别3为进水流量低的正常运行情况类别4为二沉池故障、暴雨引起的非正常状态和固体浓度过负荷等原因引起的故障情况.正常情况的类别1的样本个数比较多,属于多数类;而类别3和类别4的样本个数比较少,尤其是类别4,属于少数类,四类样本的分布比例为23.7:8.3:464:1具有明显的数据不平衡特征.
Data Driven Detection of Different Dissolved Oxygen SensorFaults for Improving Operation of the WWTP Control System(BSM1)
传感器故障的类型:不同 DO 传感器故障的检测结果,例如偏差、漂移、错误增益、精度损失、固定值或完整值。
Monitoring and Detecting Faults in Wastewater Treatment Plants using Deep Learning
使用的数据集是Valdobbiadene数据集
针对已经解决了非线性问题为什么还要关注非线性问题可以参考这里的解释:Wastewater treatment plants use many sensors to control energy consumption and dischargequality. These sensors produce a vast amount of data which can be efficiently monitored withautomatic systems. Consequently, several different statistical and learning methods are proposecin literature which can automatically detect the faults. While these methods showed promisingresults, the nonlinear dynamics and complex interaction of the variables in wastewater datanecessitate more powerful methods with higher learning capacities.
关于为什么要堆污水处理过程采用机器学习算法进行在线监控:Water collected from households and industrial plants must be treated before being dischargedinto rivers or other water bodies. In this respect, Waste Water Treatment Plants (WWTPs) playan essential role in reducing environmental pollution through removing or breaking downpollutants and reclaiming wastewater. However, WWTPs are complex systems that mustmaintain high performance, despite temporal dynamics, such as daily and seasonal changes orhuman activity. To safely and optimally operate a WWTP, it is necessary to monitor the treatmentprocess online which is costly and requires specialized equipment. In response, several sensorsare used to monitor the WWTPs influents such as ammonia, dissolved oxygen, several nutrients.
翻译:从家庭和工厂收集的水在排放到河流或其他水体之前必须进行处理。 在这方面,废水处理厂(WWTP)通过去除或分解污染物和回收废水,在减少环境污染方面发挥着重要作用。 然而,污水处理厂是复杂的系统,无论时间动态如何,例如日常和季节变化或人类活动,都必须保持高性能。 为了安全、最佳地运行污水处理厂,有必要在线监控处理过程,这不仅成本高昂,而且需要专门的设备。 为此,使用多个传感器来监测污水处理厂的进水,例如氨、溶解氧和多种营养物。 悬浮固体和有机物。 然而,实际上不可能总是部署完美工作的传感器、让人类专家监控它们或重新设计传感器的放置(Villez 等人,2016)。 因此,精确监测传感器故障是一个重要的研究方向。 故障可能有不同的类型并且发生在不同的位置,但是这项工作的重点是进水传感器的故障检测,特别是硝化氧化池中的氨测量传感器。 由于污水处理厂会生成大量数据,因此使用机器学习方法和算法来自动处理数据来自动检测系统中的此类故障是一种有前景的解决方案。 然后,这些信息可以集成到环境决策支持系统 (EDSS)(Poch 等人,2004 年)中,这将使污水处理厂始终保持高性能和低排放,并且可以及时对故障采取行动。
关于氨氮传感器测量误差大的描述,未来可以针对氨氮传感器的故障进行监测:A part of the degradation processes of macro pollutants takes place in the nitrification oxidationtank. In this tank the carbon is oxidized, and the ammonia is converted into nitrate. The processis guaranteed by the insufflation of air into the tank. The control of the blowers is a priority inorder to perform a correct and efficient management of the purifier, obtaining high purifyingperformance at an adequate energy cost. The control of the oxidation and nitrification process ismainly regulated by setting a static oxygen set point and modulating the air flow necessary tomaintain the set point. The main limit of this system is that under conditions of low load treatedby the purifier, the minimum air flow delivered by the blowers is greater than that required tomaintain the oxygen set point with consequent increase of dissolved oxygen and energy wasteAs a solution, a control process is used in these tanks (based on the concentration of ammonianitrogen present in the oxidation tank) that dynamically calculates the oxygen set point to be keptin the tank, arriving to set the set point to zero when the concentration of ammonia decreasesbelow a predetermined value. Although the management of the purification process based onammonia measurements has shown a great functionality over the years, an erroneous ammoniameasurement can lead to non-compliance with the discharge quality required by law or to a highunjustified energy consumption. Therefore, the focus of the proposed work is to detect thesetypes of faults in the ammonia measurements as early and as precisely as possible.
在这篇论文中提出了关于传感器的三种类型故障:分别是单一故障、上下文故障和集体故障(集体故障较少受到关注)。
In general, faults can be categorized into three groups: i) individual faults, which are unexpectedsingle data instances with respect to other data points: ii) contextual faults that include theindividual instances which are anomalous in a specific context and normal in another context:and imi) collective faults, which are manifested through the occurrence of an irregular collectionof instances with respect to other data trends (Chandola et al… 2009). The instances in collectivefaults are not necessarily irregular themselves but a sequence of them is considered anomalousFor instance, when the data points in a sequence happen in an unexpected order or in anunacceptable combination, it is considered as a collective fault. While, several studies have beenconducted in using machine learning techniques to detect the first two types of faults in WWTPssensors. the third and the most complex one, the collective faults have not received enoughattention.
关于当前传感器故障检测的模型:(对故障检测模型分为三种,统计方法,机器学习方法,时间序列方法(关注于集体故障))
除了故障分类之外,故障检测方法还可以按照使用顺序分为三大类:统计方法、学习模型和时间序列模型。 监测污水处理厂传感器数据的研究最多的方法是统计方法。这些方法的范围从使用曼-肯德尔检验的简单数据趋势检查,到使用统计控制图随时间跟踪感兴趣的过程变量的统计过程控制 (SPC) 方法。 这些图表可以是单变量,例如 Shewhart 图、累积和 (CUSUM) 图和指数加权移动平均 (EWMA),也可以是基于主成分分析 (PCA) 的多变量方法(Garcia-Alvarez,2009:Padhee et al.2012)和 Kernel 主成分分析(KPCA)(Cheng et al., 2010:Deng and Tian, 2013)。
第二类方法中的学习模型将故障检测视为一个二类分类问题。模糊分类(Grieu等,2001)、支持向量机(Fan等,2004)、随机森林(Zhou等,2019a;Zhou等,2019b)和神经网络(Hamed等,2004;Grieu等,2006;Du等,2018)是这一类别中研究最多的方法之一。关于废水传感器数据上统计方法和学习方法的比较有多项研究(Oliveira-Esquerre等,2004;Jin和Englande Jr,2006;Corominas等,2018)。诸如多层感知器(MLP)、自组织映射(SOM)、径向基函数(RBF)和功能链接神经网络等神经网络被发现是处理污水处理厂数据中故障检测最成功的学习方法(Maier和Dandy,2000)。
这两类方法都能成功捕捉个体故障和上下文异常。然而,这些方法不能准确检测集体故障中的复杂时间模式。因此,引入了时间序列建模方法,如ARIMA(Xiao等,2017)和时间延迟神经网络(TDNN)(Dellana和West,2009),以捕捉污水处理厂数据中的时间模式。ARIMA是一种单变量线性方法,使用先前的数据序列来预测下一个数据值。随后,使用传统的控制图来绘制预测误差并决定数据的正常性。相反,TDNN是一种带有短时记忆结构的多变量神经网络,它接收时间上分段的数据窗口并建模信号的非线性时间依赖性(Waibel,1989)。在(Dellana和West,2009)中展示了线性ARIMA和TDNN之间的比较,在八个人工数据集上,TDNN表现出明显的优势。然而,TDNN的一个缺点是它依赖于用于分割数据的窗口大小。窗口大小越大,网络及其参数的维度就越高。另一方面,小窗口大小可能无法涵盖描述系统动态的所有重要信息。
关于评价指标的介绍:测试模型的高检测性能(如表 4 所示)凸显了机器学习方法在现实世界污水处理厂数据自动故障检测中的强大功能。由于数据高度不平衡,准确性并不是最合适的衡量标准。相反,精度(作为分类器的准确性)、召回率(作为分类器的完整性)以及 F1 分数(作为精度和召回率之间的平衡)被认为更可靠。此外,这项工作的目标是最大限度地减少漏检故障(误报),但代价是误报(误报)略有增加。所以。每个类别的措施均单独呈现,突出显示与故障检测相关的结果
关于传感器故障如何介绍:人们不断努力提高污水处理厂的净化性能,同时降低能耗。这导致这些工厂的运营自动化程度提高。最后。测量传感器数量的增加。这些传感器的使用越来越多,不仅用于环境监测,而且也成为工厂管理的重要工具。因此,传感器故障的检测对于确保工厂的正确运行至关重要。此外,传感器故障很难由操作人员手动检测到,尤其是在处理具有多个传感器的大型工厂或无人值守的小型工厂时。虽然当前的系统非常高效,但显然需要开发能够可靠地检测传感器故障并为工厂操作员提供充足时间的方法,以便在故障发生时限制环境损害。本文介绍的系统是实现全自动故障检测系统的第一步,该系统可以解决污水处理厂自动管理中出现的问题。
污水处理过程监测中重要性描述:污水处理厂是保护环境的关键基础设施。然而,作为一个主要的能源消耗者确保这些工厂以优化处理效率和能源消耗的方式运行尤为重要。一个重要的方面是及时地检测和管理故障。本文提出的结果表明,有一个巨大的潜力,在使用深度神经网络管理污水处理厂故障,这项工作只是在这个方向上的第一步。不仅所提出的方法优于传统方法,但在故障检测(召回)超过92%的性能将使一类新的污水处理厂的监测和管理,需要很少的人力监督。 此外,这些方法允许与环境决策支持系统,使污水处理厂保持高性能和低排放的集成,即使在应对突发事件,故障可以采取行动,及时以最小的环境影响。本文的研究工作将进一步促进深度神经网络在污水处理厂治理中的应用,并将其推广到生态环境保护的各个领域。
数据的时间自相关的描述:
原文:To set these parameters, the Auto Correlation Function (ACF) of the data and its first differenceare plotted in Figure 4a and 4b. The plots show a strong correlation between the time series datapoints and no correlation in the differenced ones. Therefore, the parameter d is set to 1.
翻译:为了设置这些参数,数据的自相关函数(ACF) 和它的第一个差异绘制在图4a和4b中。图显示时间序列数据点之间的强相关性,而差异数据点之间没有相关性。因此,参数d设置为1。
如何引入BSM1:BSM1 and ASM1 represent the foundation of the WWTP model developed and studiedin the present paper. The necessary modifications were applied to the original BSM1model, in order to comply with the A20 configuration of the investigated municipalWWTP. The model of the WWTP consists of a set of differential and algebraic equationsthat describe each of the main structural units: primary settler (34l, anaerobic bioreactoranoxic bioreactor, three aerobic bioreactors [3l, and secondary settler [351. Data for dryweather were collected from municipal WWTP measurements and underwent a process ofreconciliation. The modified BSM1 model was updated with the plant collected data andcalibrated accordingly. For this study, a previously developed and calibrated MATLABmodel of the municipal WWTP, based on ASM1, BSM1 and MATLAB & SimulinkTMsoftware, was used to conduct dynamic-state simulations of both normal and abnormal DOsensor operation [36). The calibration of the model parameters was performed based onoptimization. The mathematical model was implemented in C++ programming languageand compiled as MATLAB executable files to gain simulation speed of the Simulink s-functions and to spare the computation resources.
Distribution and characteristics of wastewater treatmentplants within the global river network
在这篇论文中介绍了一个数据集HydroWASTE
但是这个数据集并不包含污水处理的过程变量等指标,而是聚焦于污水处理厂的位置,排水的位置,污水处理的等级等因素