基于监督学习算法的煤矿深部开采冲击地压危险预测

飘(●｀･(ｴ)･´●)

已于 2024-08-09 10:56:37 修改

阅读量936

点赞数 7

文章标签：学习算法

于 2024-08-09 10:54:44 首次发布

本文链接：https://blog.csdn.net/2301_81069834/article/details/141056217

版权

注释：需要完整论文后台私我。

题目:基于监督学习算法的煤矿深部开采冲击地压危险预测

关键词：离散傅里叶变换 随机森林 LSTM时间序列预测 决策树

摘要：针对问题一：对于问题1.1我们需要先根据提供的电磁辐射和声发射数据，对数据进行正态分布检验，再使用Kolmogorov-Smirnov 检验对数据进行清洗，然后提取干扰信号振幅，噪声水平，能量，得到信号的平均值约77.96，方差约8229.37，峰度约13.00，偏度约3.12，用傅里叶变换提取干扰信号频域特征，发现其在短时间内剧烈变化。针对问题1.2,要求我们根据提取特征，找出干扰数据最早发生的五个干扰信号，考虑到根据特征识别干扰信号，达到较高准确率，我们建立了随机森林模型，根据1.1中提取的特征，对电磁辐射和声发射数据进行分类判定，构建多个决策树，对干扰信号判定准确率高达99.78％。

针对问题二：对于问题2.1，我们对前兆数据进行数据探索，我们发现前兆数据使用具有周期性特点，对前兆数据进行预处理并可视化，分别提取EMR和AE信号的波动性，移动平均值，移动标准差，能量特征。波动性较大的地方可能与信号干扰有关，移动平均值变化趋势相比于原始信号更加平滑，有助于消除波动产生的误差，移动标准差可以作为检测异常的标准，尤其是与与标准差和平均值变化趋势不一致时。能量的变化与原始信号的波动紧密相关。对于问题2.2考虑准确率高，减少拟合风险，我们建立随机森林模型，根据问题2.1数据特征，预测前兆信号的发生区间。

针对问题三：使用小波变换降噪，首先对附件3的10个时间段的数据进行小波变换以降低噪声。这是一个有效的预处理步骤，可以提高后续预测的准确性。进行滑动窗口均值化处理：使用窗口大小为50，步长为1的滑动窗口对数据进行均值化处理。这样的处理有助于平滑数据，去除随机波动。建立LSTM模型，为10个时间段分别建立LSTM模型进行预测。LSTM（长短期记忆网络）适合处理时间序列数据，但要注意避免过拟合，可以通过交叉验证来调整模型参数。特征提取与差分：对LSTM模型预测出的10组数据，使用问题2中的方法提取特征并进行差分处理。这一步骤是特征工程的关键，确保提取的特征能够有效代表时间序列数据的特点。建立决策树模型预测：将处理后的特征代入问题2中训练好的决策树模型进行预测。决策树模型可以提供清晰的预测规则，但也要注意其泛化能力。最后计算平均概率：计算未来100个时间戳识别为前兆信号的概率平均值，作为最终结果。这是对模型预测结果的一种综合评估。

最后，对模型进行优缺点评价和推广，本文建立的模型可以为煤矿开采的冲压地压检测工作提供量化保障。

一、问题重述

1.1 问题的背景

煤炭占据我国一次能源中的重要位置，以经济性、可靠性著称，中国的煤炭资源在世界上排在前列，我国最早发现煤炭，同时也是最早开采和利用煤炭资源。然而，随着煤炭开采机械化、自动化、智能化技术的迅速发展，矿井生产强度与开采深度日益加大，在一定程度上导致了冲击地压灾害的普遍化。冲击地压矿井在中国辽宁、山东、陕西、内蒙、新疆、甘肃、河南、江苏等产煤省份均有存在，且冲击地压事故易造成严重的人员伤亡和财产损失，这导致冲击地压已成为威胁中国煤矿安全生产最重要的灾害之一。

在岩石力学中，冲击地压问题一直以来都是较难解决的。一般来说，在煤岩体的原岩应力因为采掘活动而被破坏后，采场周围的岩体积聚能量达到极限强度后突然释放，导致煤岩体瞬时破坏，产生的压力将煤岩抛向巷道或周围采场，同时破坏巷道支护，引发或可能引发其他矿井灾害。因此，对冲击地压进行监测监控，并在短期内预测其发生的时间和地点成为解决冲击地压危害的关键途径。

在深部煤矿开采过程中，可以监测声发射(AE)和电磁辐射(EMR)信号，电磁辐射和声发射传感器每30秒采集一个数据，可通过这些数据的变化趋势判断目前工作面或巷道是否存在冲击地压危险，进而避免事故的发生和财产的损失。

1.2 问题的提出

1.2.1 问题一：干扰信号分析

在矿井作业中，电磁辐射（EMR）和声发射（AE）信号常常受到来自工作环境中其他设备和作业的干扰。这些干扰可能会对信号处理和分析造成影响，降低灾害预警系统的准确性。

（1.1）分析干扰信号

需要建立一个数学模型来分析存在干扰的电磁辐射和声发射信号，并识别出至少三种与干扰相关的信号特征。

（1.2）识别干扰信号的时间区间

利用从问题1.1中得到的干扰信号特征，对特定时间段内的电磁辐射和声发射数据进行分析，以识别和记录这段时间内最早出现的五个干扰信号所在的时间区间。

1.2.2 问题二：前兆特征信号分析

已知在冲击地压发生前约7天内，电磁辐射和声发射信号会显示出特定的变化趋势，这些被称为前兆特征信号。对这些信号的及时识别和分析至关重要，以便采取相应措施防止潜在的灾害。

（2.1）分析前兆特征信号

构建一个数学模型来分析电磁辐射和声发射信号中的前兆特征，并确定至少三种关键的趋势特征，这些特征表明可能的冲击地压危险。

（2.2）识别前兆特征信号的时间区间

使用从问题2.1中获得的特征，分析特定时间段的数据，以识别并记录这些时间段中最早出现的五个前兆特征信号所在的时间区间。

问题 3: 前兆特征信号的概率预测模型

为了在每次数据采集的时刻对危险进行预判,需要尽早的识别前兆特征信号，在前兆特征信号出现的第一时间发出预警。

建立一个数学模型，分析附件中给出的各个非连续时间段采集的电磁辐射和声发射信号数据。对每个时间段的最后时刻的数据进行分析，预测前兆特征信号出现的概率，并记录在相应的表中。

二、问题分析

2.1 问题一的分析

2.1.1 （1.1）的分析

对存在干扰的电磁辐射和声发射信号进行分析，首先需要对附件1和2中提供的电磁辐射和声发射数据进行预处理，包括数据清洗、去噪、异常值处理等，确保数据质量。通过对数据进行平滑处理、滤波处理等，以减少噪声对分析结果的影响。

接着从电磁辐射和声发射信号数据中提取特征，可以采用频域分析、时域分析、小波分析等方法。对于电磁辐射信号，可以提取频率分布、振幅变化、功率谱密度等特征。对于声发射信号，可以提取频谱特征、信噪比、持续时间等特征。然后对提取的特征进行分析，比较干扰信号数据与正常信号数据之间的差异，寻找出干扰信号的独特特征。

通过以上步骤，我们可以建立一个针对存在干扰的电磁辐射和声发射信号的数学模型，并分析干扰信号数据的特征，从而更好地理解和处理这些数据。

2.1.2 （1.2）的分析

使用提取的特征通过TreeBagger函数训练一个包含100棵决策树的随机森林分类模型。利用问题一特定时间段内的电磁辐射和声发射数据导入模型进行分类判定。随机森林模型的准确率高达99.78%，实现对干扰信号的高精度识别。

2.2 问题二的分析

2.2.1 （2.1）的分析

对于问题二，前兆特征信号分析，分析前兆特征信号并识别前兆特征信号的时间区间。首先，采用与问题一相同的数据清洗方式对问题二涉及的数据进行数据清洗。采用滑动窗口方法计算每个窗口的平均值、标准差和能量等指标。

2.1.2 （2.2）的分析

使用随机森林算法训练分类模型，目的是从特征中学习区分类别A和B的模式。利用问题二特定时间段内的电磁辐射和声发射数据导入模型并对其执行与训练数据相同的预处理和特征提取步骤。识别并合并连续或近连续的预测为前兆特征的时间窗口，形成连续的时间区间。

2.3 问题三的分析

对于问题三，题设要求我们对附件3十个时间段的非连续时间段采集的电磁辐射和声发射信号数据进行预测，并给出附件3中的每个时间段最后时刻出现前兆特征数据的概率。本文首先针对附件3的10个时间段的数据进行小波变换降噪，然后进行滑动窗口均值化处理，接着建立10个LSTM模型分别预测10个时间段未来50个时间戳上的信号数据，然后针对预测得出的10组数据利用问题2相同的方法提取特征并做差分后代入问题2训练好的决策树模型进行预测，然后将未来50个时间戳的识别为前兆信号的概率取平均最后得到结果。

综合所述，我们通过解决上述问题有助于优化煤矿的安全监控系统，提高对冲击地压等灾害的预防和响应能力。

三、模型假设

1.假设传感器收集的数据来源相同

2.假设传感器的数据准确且数据标注在整体上是正确的

3.假设各类数据的持续时间是连续的，且其发生的过程中存在一定的规律

4.假设数据来源的煤矿并没有发生显著差别

四、符号说明

序号	符号	符号说明
1	Xi	干扰信号每一组的信号特征
2	Xmin	特征的最小值
3	Xmax	特征的最大值
4	μ	数据的方差
5	σ	数据的标准差

五、模型的建立与求解

5.1 问题一模型的建立与求解

5.1.1问题（1.1）模型的建立与求解

5.1.1.1 问题（1.1）模型的建立

5.1.1.1.1 数据清洗

利用Matlab的find函数对数据集的缺失值进行查找，得到题目给提供的数据中并没有存在缺失值。对于异常值的判定，首先对数据进行正态分布的检验。使用Kolmogorov-Smirnov检验对题目给出的数据判定其分布方式。其基本原理是将数据集的累积分布函数与理论分布函数进行比较，通过计算两者之间的最大差距来判断数据集是否符合该理论分布。如果最大差距小于某个临界值，则认为数据集服从该理论分布，单样本的K-S检验是用来检验一个数据的观测经验分布是否是已知的理论分布，当两者间的差距很小时，推断该样本取自已已知的理论分布。作为零假设的理论分布一般是一维连续分布F(如正态分布、均匀分布、指数分布等)，有时也用于离散分布（如Poisson分布）。即H：总体X服从某种一维连续分布F。