【读论文08】-时空预测-STGCN-微震
引出话题
深部煤炭能源开采经常引发微震(MS)事件,这可能是岩爆风险的前兆,并对人员安全和基础设施构成威胁。因此,定量预测未来 MS 事件的时间、能量和位置(TEL)对于理解和预防潜在的灾难性事件至关重要。
本文方法
在本研究中,我们首次将时空图卷积网络(STGCN)应用于深部煤炭能源开采诱发的 MS 事件的 TEL 预测。这是图卷积网络(GCN)首次在 MS 事件的时空预测中得到应用。我们基于 MS 传感器之间的距离构建了传感器网络的邻接矩阵,并利用 GCN 提取图的时空特征。该模型简单且通用。
效果和结论
通过对现场 MS 监测数据进行测试,我们的结果表明,该模型在 MS 事件的 TEL 预测方面表现出良好的效果,其中余弦相似度(C)高于 0.90,平均相对误差(MRE)低于 0.08。这对于提高深部煤炭能源开采的安全性和运营效率至关重要。
引言
-
研究背景
- 深部煤矿开采导致微震事件,可能引发岩爆灾害。
- 预测微震事件的时间、能量和位置(TEL)对安全生产至关重要。
-
现有研究现状
- 传统方法主要依赖经验公式和数值模型,如能量指数分析、贝叶斯网络等。
- 深度学习模型在地质安全预测中的应用日益增多,如 ConvLSTM、DBN 等。
- 现有深度学习方法主要基于单点传感器,未考虑传感器网络的空间连通性。
-
研究创新点
- 提出采用 STGCN 模型进行微震事件的 TEL 预测。
- 利用传感器网络的空间信息,提高预测精度。
- 通过煤矿实测数据验证模型,提升其在岩爆风险预警中的应用价值。
-
研究意义
- 研究成果有助于提升深部煤炭能源开采的安全性和运营效率。
- 为深度学习在地质灾害预测中的应用提供技术支持。
- 采用“背景—现状—问题—方法—贡献”的学术写作逻辑,使文章条理清晰。
引言完整翻译
研究背景
深部煤炭能源开采涉及从地下深处提取煤炭,这通常会导致微震(MS)事件的发生。这些事件是由于采矿活动引起的岩体内部应力重新分布所导致的(Vennes et al., 2020; Kong et al., 2022; Song et al., 2024a)。在严重情况下,它可能演变成岩爆灾害,对人员安全和基础设施构成威胁(Gao et al., 2021; Liu et al., 2022; Pan et al., 2023)。准确预测此类事件的发生时间、能量和位置(TEL)对于确保矿工安全和制定有效的减灾策略至关重要。因此,防止和减少岩爆灾害仍然是煤炭行业亟待解决的关键问题之一(Qiu et al., 2023)。其主要目标是在灾害发生前准确判断其发生时间、地点及风险等级。
研究现状
目前,大多数岩爆预测方法依赖于对矿区危险等级的评估。例如,Cai 等人(2015)定量分析了爆破应变能指数,以反映微震的风险,这类似于图像质量评估中使用的结构相似性指数。Wang 等人(2022)使用有向无环图(DAG)和贝叶斯网络融合多种地球物理信号,以预测岩爆发生的概率。Mao 等人(2023)结合矩张量反演(MTI)与动态贝叶斯网络(DBN),为岩爆风险提供早期预警。然而,这些传统方法主要依赖经验公式和数值模型的结合(Tang et al., 2010; Feng et al., 2020; Peng et al., 2023)。
深度学习兴起
随着大规模监测数据的积累以及大数据分析技术的发展,深度学习模型在地质安全监测和预警系统中的应用受到越来越多的关注(Huang et al., 2018; Geng and Wang, 2020; Guo et al., 2022; Li et al., 2023; Di et al., 2024; Song et al., 2024b)。Cheng 等人(2023)利用微震数据的分形维度开发了一种深度学习模型,可有效预测和量化岩爆风险。Lan 等人(2023)基于四年的监测数据,使用 MEA-BP 神经网络预测微震事件的能量,平均相对误差(MRE)为 0.2,提高了预测精度。Chen 等人(2023)采用卷积长短时记忆(ConvLSTM)构建深度学习模型,能够预测微震事件的短期局部时空分布,证明了深度学习在微震事件时空预测中的有效性。Chen 等人(2022)提出了一种结合常规卷积模块、循环神经网络(RNN)模块和自回归(AR)模型的深度学习框架,实现了岩爆风险的时空预测。
目前存在的问题
尽管取得了一定进展,但针对未来微震事件的 TEL 多属性定量预测仍处于早期阶段,精度和鲁棒性仍有待提升。现有的深度学习模型通常未考虑传感器网络的连通性,仅依赖单一监测点进行预测。然而,微震监测是一种区域性监测方法,涉及多个传感器,这些传感器之间存在相互作用。因此,在建模过程中利用传感器的空间关系,可以更准确地描述相邻位置的影响,从而提高 TEL 预测的精度(Jiang et al., 2019; Chen, 2020)。
引出图卷积
图卷积网络(GCN)在处理离散空间域信号方面展现出强大的能力(Velickovic et al., 2018)。时空图卷积网络(STGCN)模型结合了 GCN 的图结构深度学习方法,能够从历史时空网络序列中提取高质量的时空特征,从而实现精准预测(Chiang et al., 2019; Liu et al., 2019)。这一方法已在交通流量预测等领域取得成功应用(Yu et al., 2018; Deng et al., 2021; Zang et al., 2021)。STGCN 不仅能够解决传感器网络建模和空间预测问题,还能高效地提取时间序列数据中的关键时间特征。由于该模型仅由卷积层构成,因此能够并行处理输入数据,并减少参数数量,加快训练速度(Song et al., 2020)。此外,该模型在处理大规模网络时表现出较高的计算效率。然而,STGCN 在岩爆风险预警中的应用仍较为有限。
本文方法
因此,本研究采用 STGCN 模型对微震事件的 TEL 进行定量预测,并利用中国辽宁省某煤矿的深部煤炭能源开采项目数据进行验证。本研究可实时、准确地预测微震事件的时空分布及能量特征,为深度学习在岩爆风险预警中的应用提供技术支持,有助于提升深部煤炭能源开采的安全性和运营效率。
2. 数据和方法
2.1 数据来源
山西组和太原组是辽宁省煤矿的主要含煤地层,其中贫煤是最常见的煤炭类型。在 2020 年至 2022 年期间,该煤矿主要开采 1208 工作面,煤层主要集中在 #12 煤层。#12 煤层是由 12-1 和 12-2 煤组成的复合煤层,其厚度变化较大,主要受火成岩层的影响。工作面的采矿过程受多种因素的影响,例如 断层、煤柱、火成岩床、煤层厚度变化,以及采矿区域与采矿运动的相互作用,这些因素均可能 增加岩爆风险。为了评估 1208 工作面的岩爆风险,本研究采用 综合指数法 进行分析。图 1 显示了 1208 工作面的示意图。
为了进行风险监测,采用 地震观测系统(SOS) 对微震(MS)事件进行实时监测。从 2019 年 1 月 4 日到 2020 年 11 月 15 日,在 1208 工作面共记录到 11,459 个能量大于 1 × 10² J 的 MS 事件,其中包括因 煤岩体振动或破裂 以及 爆破 事件引起的有效 MS 事件。其中,1159 个 MS 事件的能量大于 1 × 10⁵ J。
在实际的 监测预警 过程中,共设置了 31 个测点 来预测未来 MS 事件的能量,主要监测指标为 MS 事件的能量。在使用深度学习模型对 MS 事件进行 时空预测 时,确保训练数据的准确性和可靠性对于 优化网络参数 至关重要。训练样本的质量和准确性直接影响预测结果的可靠性。
为了确保模型训练后能够获得良好的表现,所选择的 MS 事件必须包含完整且有效的记录。对于损坏或不完整的数据,可以通过 删除事件或排除受损传感器 来进行数据清理。经过严格的 筛选和校准 过程,本研究最终选取了 ID 为 #10、#11、#12 和 #13 的传感器 进行模型训练。传感器的位置会定期调整,其 移动时间和位置如表 1 所示。
2.2 数据处理
本研究选取了 1208 工作面 在 2019 年 1 月 4 日至 2020 年 11 月 15 日 期间监测的 微震(MS)事件的能量与位置数据。研究的重点是 预测 MS 事件的时间(T)、能量(E)、位置(L)(即 TEL 预测)。研究主要包含两个方面:
- 预测 MS 事件的时间和能量。
- 预测 MS 事件的位置。
2.2.1 时间与能量数据处理
为预测 MS 事件的 时间和能量,我们利用了选定传感器的 振幅记录。在所有记录的数据中,仅有 1040 个 MS 事件 具有 对应的振幅数据。利用 公式 (1),计算了 四个传感器上每个 MS 事件的能量:
{ M = log 10 A + 1.26 log 10 D − 0.0026 D − 2.2 M = 2 3 log 10 M 0 − 6.07 E m s = 0.5 M 0 × 1 0 − 5 \begin{cases} M = \log_{10} A + 1.26 \log_{10} D - 0.0026D - 2.2 \\ M = \frac{2}{3} \log_{10} M_0 - 6.07 \\ E_{ms} = 0.5 M_0 \times 10^{-5} \end{cases} ⎩ ⎨ ⎧M=log10A+1.26log10D−0.0026D−2.2M=32log10M0−6.07Ems=0.5M0×10−5
其中:
- (M) 为矩震级(Moment Magnitude)。
- (A) 为最大振幅(Maximum Amplitude)。
- (D) 为震源到传感器的距离(Distance from Seismic Focus to Sensor)。
- M 0 M_0 M0为地震矩(Seismic Moment)。
-
E
m
s
E_{ms}
Ems为每个传感器上的 MS 事件能量。
接下来,对 MS 能量进行标准化,并 转换为 3 小时的时间序列,缺失值填充为 0。然后,将数据格式化为 STGCN(时空图卷积网络)模型 所需的输入格式。图 2 展示了数据的输入格式,记为:
V
=
(
T
,
I
,
E
m
s
)
V = (T, I, E_{ms})
V=(T,I,Ems)
其中:
- T T T 代表时间戳(Timestamp)。
- I I I 代表传感器 ID(MS Sensor ID)。
- E m s E_{ms} Ems代表 MS 事件能量。
数据按照 时间戳(行索引) 和 传感器 ID(列索引) 进行组织,最终得到 MS 事件的时间-能量数据集 V E m s ∈ R 5453 × 4 VE_{ms} \in R^{5453 \times 4} VEms∈R5453×4,其中包含 5453 帧数据,每帧数据对应 四个传感器的观测值。
2.2.2 位置数据处理
为了预测 MS 事件的位置,数据格式需要按照 图 2 进行转换。共有 11,459 个符合条件的 MS 事件位置信息,数据处理流程如下:
- 计算震源到四个传感器的距离。
- 将时间戳的间隔设定为 30 分钟,并将缺失值填充为 0。
- 构建 X、Y、Z 坐标数据集,分别记为:
V X , Y , Z ∈ R 32 , 731 × 4 V_{X,Y,Z} \in R^{32,731 \times 4} VX,Y,Z∈R32,731×4
其中32,731代表数据帧数,4 代表四个传感器。
2.2.3 传感器网络构建
GCN(图卷积网络) 依赖于底层 图结构(Graph Structure) 进行建模。因此,为了准确捕捉 传感器之间的连接关系,必须构建一个 传感器网络图。
在本研究中,根据 传感器的移动情况,共 构建了 9 个传感器网络图。依据 表 1 中的传感器位置变化,绘制了 传感器网络和 MS 事件的位置分布图(图 3)。
- MS 事件 以 红色球体 表示,球体大小代表事件能量大小。
- 传感器 以 绿色球体 表示,代表监测点位置。
- 震源坐标范围:
- X 轴:4100 m - 4850 m
- Y 轴:7150 m - 8650 m
- Z 轴:1350 m - 650 m
2.3 STGCN 模型介绍
STGCN(时空图卷积网络)是一种利用 卷积网络 提取 时间和空间特征 的方法,通过构建 图结构 和 时空网络 来进行预测。时空卷积 通过 空间 & 时间维度 挖掘 图数据的依赖关系,从而提升预测能力。
在 STGCN 中,图(Graph)表示为:
G
=
(
V
,
E
,
W
)
G = (V, E, W)
G=(V,E,W)
其中:
- (V) :图的节点集合,表示 传感器的监测值。
- (E) :图的边集合,表示 监测点之间的关系。
- (W) :邻接矩阵(Adjacency Matrix),表示 节点之间的连接关系,在处理 图数据 时至关重要。
在本研究中,传感器网络被视为无向图,因此 不考虑方向性。
STGCN 由 两层时空卷积(ST-Conv)模块 和 一个输出层 组成:
- ST-Conv 模块 由 两个时间卷积层(Temporal Convolution) 和 一个空间卷积层(Spatial Convolution) 组成。
- 输出层 由 一个时间卷积层 和 一个全连接层 组成(如 图 4 所示)。
2.3.1 时间卷积(Temporal Convolution)
时间卷积是一种 一维(1D)卷积神经网络(CNN),采用 ReLU 激活函数 进行 时间序列特征提取,实现 时间序列预测。
1. 输入数据格式
在 STGCN 模型中:
- 每个节点(传感器) 的特征表示为 时间序列,时间戳作为索引。
- 输入样本 由 时间步长窗口 设定,形成 时间片段数据,输入到 1D 卷积层。
- 卷积核大小 设定为 K t K_t Kt,用于提取时间模式。
2. 计算过程
- GLU(门控线性单元) 处理非线性关系,并 选择关键特征,提高预测性能(Liu et al., 2023)。
- 卷积操作 作用于 K t K_t Kt邻居,无填充(No Padding),因此 序列长度每次缩短 K t − 1 K_t - 1 Kt−1.
- 输入数据可表示为序列 (y_t),卷积核 (G) 将 (y_t) 分割成 两部分。
- Hadamard 乘积(逐元素相乘)结合两部分矩阵,形成 输出矩阵 (PQ)。
- 时间卷积输出计算公式:
y ^ t = I ∗ y ^ t − P ⊙ σ ( Q ) \hat{y}_t = I^* \hat{y}_t - P \odot \sigma(Q) y^t=I∗y^t−P⊙σ(Q)
其中:
- (P, Q) 是 GLU 门控结构 的输入数据。
- ( ⊙ \odot ⊙) 代表 Hadamard 乘积(逐元素相乘)。
- (s) 代表 Sigmoid 函数,用于 门控操作。
3. 共享参数优化
- 时间卷积模块的参数在整个图结构中共享。
- 参数共享降低模型复杂度,减少参数数量,提高 模型泛化能力 & 可迁移性。
2.3.2. 空间卷积(Spatial Convolution)
在GCN中,空间卷积通过邻接矩阵
W
W
W传播信息,以提取空间特征:
H
(
l
+
1
)
=
σ
(
D
~
−
1
/
2
W
~
D
~
−
1
/
2
H
(
l
)
W
(
l
)
)
H^{(l+1)}=\sigma(\tilde{D}^{-1/2} \tilde{W} \tilde{D}^{-1/2}H^{(l)}W^{(l)})
H(l+1)=σ(D~−1/2W~D~−1/2H(l)W(l))
其中:
- H ( l ) H^{(l)} H(l) 是第 l l l层的特征矩阵
- W ( l ) W^{(l)} W(l) 是可训练的权重矩阵
- σ \sigma σ 是激活函数(如ReLU)
- W ~ = W + I \tilde{W}=W+I W~=W+I 是加入自连接(self-loop)的邻接矩阵
- D ~ \tilde{D} D~ 是 W ~ \tilde{W} W~的度矩阵
图拉普拉斯矩阵(Graph Laplacian
在GCN中,图拉普拉斯矩阵
L
L
L计算如下:
L
=
I
n
−
D
−
1
/
2
W
D
−
1
/
2
L=I_n-D^{-1/2}WD^{-1/2}
L=In−D−1/2WD−1/2
其中:
- I n I_n In 为单位矩阵
- W W W 为邻接矩阵
-
D
D
D 为度矩阵:
D i i = ∑ j W i j D_{ii}=\sum_j W_{ij} Dii=j∑Wij
在谱方法中,
L
L
L可以被分解为:
L
=
U
Λ
U
T
L=U\Lambda U^T
L=UΛUT
其中:
- U U U 是图傅里叶变换矩阵
- Λ \Lambda Λ 是拉普拉斯矩阵的特征值对角矩阵
- U T U^T UT 是 U U U的转置矩阵
GCN计算过程
在频谱域进行图卷积:
y
^
s
=
Q
∗
t
y
s
=
Q
(
L
)
y
s
=
Q
U
Λ
U
T
y
s
=
U
Q
(
Λ
)
U
T
y
s
\hat{y}_s=Q*_t y_s=Q(L)y_s=Q U\Lambda U^T y_s=UQ(\Lambda)U^T y_s
y^s=Q∗tys=Q(L)ys=QUΛUTys=UQ(Λ)UTys
其中:
- y s y_s ys 是输入数据
- Q Q Q 是卷积核
- Λ \Lambda Λ 是拉普拉斯矩阵的特征值
- U U U 是傅里叶变换矩阵
- ∗ t *_t ∗t 代表时空卷积操作
2.3.3. 时空卷积模块(Spatial-temporal Convolution Module)
为了有效地结合图矩阵中的空间信息和时间信息,提出了一种名为ST-Conv模块的方法。该模块可以根据应用的复杂性和规模进行堆叠或扩展。图4展示了ST-Conv模块的架构。核心的空间层作为两个时间层之间的连接器,使得图卷积的信息可以通过时间卷积迅速传播到空间状态。这种连接对于集成空间和时间特征至关重要。
此外,ST-Conv模块的“夹心”结构是一种有效的策略,用于解决瓶颈问题。通过使用图卷积层,该模块可以控制通道数( C i C_i Ci),并进行下采样和上采样操作,从而实现缩放压缩和特征压缩。为了防止过拟合,每个ST-Conv模块中都采用了层归一化(Layer Normalization)。该技术通过对每一层的输出进行标准化,帮助提升模型的泛化能力。
总体而言,ST-Conv模块引入了一种强大的机制,用于在图数据上下文中联合处理空间和时间信息。它能够有效地进行特征提取和集成,从而在各种应用中提高模型的性能。
3. 基于STGCN模型的时空数据预测模型的构建与现场应用
MS监测系统的TEL预测模型架构如图5所示。该模型包含三个关键思想:
- MS传感器作为节点,根据它们之间的距离连接成一个无向图,以表示空间关系,这用于计算MS监测网络的邻接矩阵。
- 提取特征并评估节点之间的连通性。首先,采用一维门控卷积层(1D-Gated-Conv)提取每个节点的特征。此外,应用图卷积来提取节点之间的连接性。
- 基于STGCN构建TEL预测模型,并随后进行训练优化。
3.1. 建模
3.1.1. 图数据的构建
基于图卷积网络(GCN)的预测模型依赖于图数据。具体而言,图由一个连续监测的传感器网络构成,其中每个传感器对应一个节点,传感器监测的数据即为该节点的特征。这些节点特征的处理在第2.2节中有所描述。然而,由于煤岩地质、波速和传感器距离等因素,捕捉节点之间的连通性较为复杂。为了解决这个问题,计算了节点之间的边的权重,这一权重基于节点间的距离,如表1所示。计算采用无向图连接方法,最终得到了邻接矩阵 W ∈ R n × n W \in \mathbb{R}^{n \times n} W∈Rn×n,公式(5)给出了计算方法(Zhao and Chen, 2023)。
随后,将权重低于预定阈值的边去除,得到了一个“稀疏”权重矩阵,即加权邻接矩阵(Yu et al., 2018)。加权邻接矩阵的计算公式如下:
W i j = { 1 if d i j − min d i j max d i j − min d i j < e − ( i s j ) 0 otherwise W_{ij} = \begin{cases} 1 & \text{if } \frac{d_{ij} - \min d_{ij}}{\max d_{ij} - \min d_{ij}} < e^{-(isj)} \\ 0 & \text{otherwise} \end{cases} Wij={10if maxdij−mindijdij−mindij<e−(isj)otherwise
其中,
d
i
j
d_{ij}
dij是节点
i
i
i和节点
j
j
j之间的距离,
e
=
0.1
e = 0.1
e=0.1用来修改邻接矩阵
W
W
W的稀疏度。
最终的加权邻接矩阵通过图6可视化展示。基于MS传感器的移动特征,共创建了9个图。该矩阵详细展示了分配给边的权重,表明传感器距离越近,权重越高,影响也越大。
3.1.2. 特征提取
时间卷积采用残差结构,其中节点特征通过卷积神经网络(CNN)提取,然后与GLU输出(也称为门控卷积)连接。由于STGCN模型的广泛性,网络架构保持默认值,卷积核大小为 K t = 3 K_t = 3 Kt=3,通道数 C i = 64 C_i = 64 Ci=64。在进行时间卷积之前,设置窗口大小 h h h和 p p p,表示预测 h h h时间点数据之后的 p p p时间点数据。
MS的时间序列数据被处理为Min-Max缩放,并将处理后的数据表示为 y t ∈ R b s × h × 4 y_t \in \mathbb{R}^{bs \times h \times 4} yt∈Rbs×h×4(其中 b s bs bs是批量大小, h h h表示输入数据的窗口大小,数字1和4分别表示通道数和传感器数)。然后,将其输入到1D-Conv层并使用ReLU激活函数。得到的输出表示为 y t 0 ∈ R b s × 128 × ( h K t + 1 ) × 4 y_t^0 \in \mathbb{R}^{bs \times 128 \times (hK_t + 1) \times 4} yt0∈Rbs×128×(hKt+1)×4,表示提取的时间特征。
随后,将 y t 0 y_t^0 yt0作为输入传递到GLU层,生成输出 y b t ∈ R b s × 64 × ( h K t + 1 ) × 4 y_b^t \in \mathbb{R}^{bs \times 64 \times (hK_t + 1) \times 4} ybt∈Rbs×64×(hKt+1)×4(Jozinovic et al., 2022)。在图卷积中,输入为上一层的输出 y b t y_b^t ybt和邻接矩阵 W W W,用于提取空间相关性。通道数为16,Chebyshev多项式阶数 K s = 3 K_s = 3 Ks=3。得到的输出表示为 y s ∈ R b s × 16 × ( h K t + 1 ) × 4 y_s \in \mathbb{R}^{bs \times 16 \times (hK_t + 1) \times 4} ys∈Rbs×16×(hKt+1)×4。
随后,连接另一个门控卷积层,输出表示为 y s 0 ∈ R b s × 64 × ( h 2 K t + 2 ) × 4 y_s^0 \in \mathbb{R}^{bs \times 64 \times (h 2K_t + 2) \times 4} ys0∈Rbs×64×(h2Kt+2)×4。门控卷积、图卷积和门控卷积的结合创建了一个时空卷积模块。该模块通过双层时空卷积模块扩展了时空特征的提取。最终输出表示为 y b s ∈ R b s × 64 × 1 × 4 y_b^s \in \mathbb{R}^{bs \times 64 \times 1 \times 4} ybs∈Rbs×64×1×4。
3.1.3. 输出块设置
输出块包括一个带ReLU激活函数的门控卷积层(gated-conv layer)、层归一化(layer normalization)和两个全连接层。这个结构称为TNFF架构(Temporal and Node Feature Fusion architecture),在聚合所有图节点特征方面发挥着至关重要的作用。为了防止过拟合,模型中还包括了一个drop-out层。模型的输出随后传递到全连接回归层,最终产生一个输出,表示为 y b ∈ R b s × 1 × 1 × 4 y_b \in \mathbb{R}^{bs \times 1 \times 1 \times 4} yb∈Rbs×1×1×4,这表示对每个时间帧的节点数据的预测。
需要设置的超参数包括窗口大小 h h h、预测时间点数 p p p、批量大小 b s bs bs、学习率 l r l_r lr、drop-out率 d r dr dr以及训练的epoch数 e e e。
3.2. 模型训练
由于MS事件的时间能量数据有限,我们将输入数据集按8:2的比例划分为训练集和验证集。训练集包含4351帧数据,验证集包含1066帧数据。尽管如此,这些数据足以确定MS事件的位置。因此,我们将位置数据集按7:3的比例划分为训练集和验证集。训练集包含22,901帧数据,验证集包含9794帧数据。随后,验证集进一步划分为验证集和测试集,两者按照1:1的比例划分。
为了加速训练并解决过拟合问题,我们实施了早停机制,耐心值设为10。均方误差(MSE)作为损失函数,Adam优化器用于模型训练。STGCN模型是使用Python的PyTorch库实现的,训练使用NVIDIA GeForce GTX 3060。每次训练的平均时长约为12分钟。
接着,通过评估测试集的平均绝对误差(MAE)、相对误差(MRE)和余弦相似度(C)来评估模型性能,公式如下所示:
M A E = 1 n ∑ i = 1 n ∣ y b i − y i ∣ MAE = \frac{1}{n} \sum_{i=1}^{n} |y_b^i - y_i| MAE=n1i=1∑n∣ybi−yi∣
M R E = 1 n ∑ i = 1 n ∣ y b i − y i ∣ y i MRE = \frac{1}{n} \sum_{i=1}^{n} \frac{|y_b^i - y_i|}{y_i} MRE=n1i=1∑nyi∣ybi−yi∣
其中, n n n是样本数, y b i y_b^i ybi是预测值, y i y_i yi是真实值。
余弦相似度 ©:
C
=
∑
i
=
1
n
(
K
i
⋅
Q
i
)
∑
i
=
1
n
K
i
2
⋅
∑
i
=
1
n
Q
i
2
C = \frac{\sum_{i=1}^{n} (K_i \cdot Q_i)}{\sqrt{\sum_{i=1}^{n} K_i^2} \cdot \sqrt{\sum_{i=1}^{n} Q_i^2}}
C=∑i=1nKi2⋅∑i=1nQi2∑i=1n(Ki⋅Qi)
其中, K i K_i Ki是MS事件的真实属性向量, Q i Q_i Qi是模型预测的属性向量, n n n是向量的长度。
位置预测误差
-
深度误差 (DE):
D E = ∣ z − z ∗ ∣ DE = |z - z^*| DE=∣z−z∗∣ -
震中误差 (EE):
E E = ( x − x ∗ ) 2 + ( y − y ∗ ) 2 EE = \sqrt{(x - x^*)^2 + (y - y^*)^2} EE=(x−x∗)2+(y−y∗)2 -
绝对误差 (AE):
A E = ( x − x ∗ ) 2 + ( y − y ∗ ) 2 + ( z − z ∗ ) 2 AE = \sqrt{(x - x^*)^2 + (y - y^*)^2 + (z - z^*)^2} AE=(x−x∗)2+(y−y∗)2+(z−z∗)2
其中, x , y , z x, y, z x,y,z分别是真实的震源X、Y、Z坐标, x ∗ , y ∗ , z ∗ x^*, y^*, z^* x∗,y∗,z∗分别是预测的震源X、Y、Z坐标。
MAE表示预测值与真实值之间的平均绝对误差,值越小表示性能越好。MRE表示误差与真实值的比例,C则衡量了预测值和真实值之间的相似度,值越接近1表示预测精度越高。此外,DE、EE和AE用于评估MS事件位置预测的效果。
通过使用这些不同的误差度量,可以全面评估STGCN模型的时空预测性能。
3.3. MS事件的时间和能量预测结果
使用MS时间能量数据集作为STGCN模型的输入进行训练和验证。通过网格搜索技术得到的最优参数如下:
h
=
12
h=12
h=12,
p
=
5
p=5
p=5,
b
s
=
16
bs=16
bs=16,
l
r
=
1
×
1
0
−
4
lr=1 \times 10^{-4}
lr=1×10−4,
d
r
=
0.7
dr=0.7
dr=0.7,
e
=
200
e=200
e=200。测试集包含533帧数据,记录时间为2020年9月10日6:00至2020年11月15日9:00。预测结果如图7所示。黑线表示真实趋势,每个波峰代表一次MS事件,0为填充值。红线表示预测趋势。对于值为0的部分,预测值略高,但非常稳定,未超过危险阈值,可以忽略。总体来看,MS事件的预测趋势与实际趋势非常相似,可以预测大于
1
×
1
0
5
1 \times 10^5
1×105 J的MS事件。尽管存在滞后现象,但值得注意的是,每个MS事件的时间预测延迟了3个时间间隔,约为9小时。这个规律可以归因于STGCN预测方法中图卷积叠加时间卷积的高效结构。与大多数依赖历史均值的递归网络相比,STGCN方法能够在传感器网络中及时、准确地响应动态变化(Zhao 和 Chen, 2023)。在这种预测模式中,改变数据集时间戳的时间间隔可能会减少延迟。因此,利用这种预测模式仍然能够发出岩爆风险警告。在讨论中,我们研究并分析了数据集的时间间隔与预测准确度之间的关系。
测试集包含20个高能事件。通过计算这些事件的预测值与真实值之间的绝对误差和相对误差,得到了误差的分布(见图8和图9)。高能事件的能量范围为 1.6 × 1 0 5 1.6 \times 10^5 1.6×105 J至 4.09 × 1 0 5 4.09 \times 10^5 4.09×105 J,中位值为 2.99 × 1 0 5 2.99 \times 10^5 2.99×105 J。预测值的范围为 1.90 × 1 0 5 1.90 \times 10^5 1.90×105 J至 3.65 × 1 0 5 3.65 \times 10^5 3.65×105 J,中位值为 2.78 × 1 0 5 2.78 \times 10^5 2.78×105 J。绝对误差范围为 0.18 × 1 0 5 0.18 \times 10^5 0.18×105 J至 0.68 × 1 0 5 0.68 \times 10^5 0.68×105 J,中位值为 0.25 × 1 0 5 0.25 \times 10^5 0.25×105 J。相对误差范围为0.07到0.18,中位值为0.14,表明预测误差相对较小。两个异常值分别为 0.76 × 1 0 5 0.76 \times 10^5 0.76×105 J和 0.53 × 1 0 5 0.53 \times 10^5 0.53×105 J,真实值分别为 1.06 × 1 0 5 1.06 \times 10^5 1.06×105 J和 1.36 × 1 0 5 1.36 \times 10^5 1.36×105 J,预测值分别为 1.87 × 1 0 5 1.87 \times 10^5 1.87×105 J和 0.64 × 1 0 5 0.64 \times 10^5 0.64×105 J。幸运的是,误差较大的MS事件的能量水平较低,且真实值与预测值均未超过预警阈值,因此没有出现误报或遗漏。
3.3.2. MS事件位置预测结果
在STGCN模型中,使用MS事件的X坐标数据集进行训练和验证。最优参数如下:
h
=
12
h=12
h=12,
p
=
5
p=5
p=5,
b
s
=
64
bs=64
bs=64,
l
r
=
1
×
1
0
−
4
lr=1 \times 10^{-4}
lr=1×10−4,
d
r
=
0.25
dr=0.25
dr=0.25,
e
=
200
e=200
e=200。与时间能量预测的参数设置相比,只有
d
r
dr
dr和
b
s
bs
bs有所变化,而其他参数未作更改,从而减少了计算复杂度和训练时间。此外,Y坐标和Z坐标数据集也使用与X坐标数据集相同的训练参数进行训练、验证和测试,以测试模型的泛化能力。测试集共包含566个MS事件,位置预测结果如图10和图11所示。
图10展示了测试集中X、Y和Z坐标的真实值与预测值之间的拟合结果。绿色圆点代表MS事件。颜色越深,表示该范围内的误差事件数量越多,显示出误差的稀疏性。误差在50米以内的事件被包含在红色虚线范围内。X坐标的预测在50米以内的绝对误差为50.3%,在100米以内为83.2%,MAE为57.4米,MRE为0.08。对于Y坐标,50米以内的绝对误差为61.6%,100米以内为84.8%,MAE为66.6米,MRE为0.04。至于Z坐标,50米以内的绝对误差为89.4%,100米以内为95.4%,MAE为22.6米,MRE为0.03。我们观察到X坐标的预测性能最不准确,而Z坐标则表现出最准确的预测性能。其原因可能是X坐标数据分布最不均匀,而Z坐标数据分布最为集中。
图11a-c显示了测试集中MS事件的DE、EE和AE的比例。图11d展示了这三种误差的分布,并指出中位数线,更符合平均水平。Z坐标的预测误差即为DE,且中位数线为13.4米,表现最佳。EE主要集中在150米以内,占85.1%,其中位数线为81.2米。AE在150米以内的比例为83.0%,其中位数线为89.0米。
总结而言,STGCN模型在MS事件位置预测中展现了良好的性能,证明了其在该领域的有效性。
3.3.3. MS事件TEL预测性能
在本研究中,STGCN模型用于预测MS事件的五个属性:时间、能量以及X、Y和Z坐标。MS事件的TEL多属性定量预测取得了成功,并通过MAE、MRE和C来评估STGCN预测的性能(见图12至图14)。
时间预测
在时间预测方面,MAE为3,即时间预测滞后3个采样点。由于矿区的MS事件传感器波形记录较少,时间-能量数据集的时间戳时间间隔被设置为3小时,这导致了3个采样点的预测滞后(即9小时的延迟)。为了验证时间间隔是否是影响预测滞后的因素,我们使用了数据量足够的时间坐标数据集进行训练、验证和测试。时间序列数据的时间间隔设置为30分钟到180分钟,以进行测试分析(见图14)。当时间间隔为30分钟和60分钟时,MAE值为1,即预测滞后30分钟和60分钟;当时间间隔为120分钟时,MAE为2,即预测滞后4小时。这表明,当数据量充足时,缩短时间序列数据的时间间隔可以减少预测滞后的时间,且由于其一致的预测滞后时间,这导致了接近1的最优C值。利用这一预测规则,可以实现及时的早期预警。
能量预测
在能量预测方面,MAE为 2.05 × 1 0 5 2.05 \times 10^5 2.05×105 J。图7展示了预测模式,显示在高能事件预测后两个采样点存在轻微的能量波动趋势,这导致了较高的MAE。然而,由于这些不正确的预测紧跟在高能事件后,并且未超过警告阈值,因此其影响较小,可以忽略不计。MRE为0.055,C值为0.9,进一步验证了能量预测的高精度。
空间属性预测
在空间属性预测方面,X、Y和Z坐标的MAE分别为57.41米、66.62米和22.61米,而MRE分别为0.082、0.042和0.033。此外,C值分别为0.84、0.94和0.95。这些结果表明,位置预测达到了较高的性能和准确度。
总结来说,STGCN模型在MS事件的时间、能量以及空间位置预测中均表现出色,且具有较高的预测精度和稳定性。
4. 讨论
本研究在微震(MS)事件的定量预测方面取得了重要进展,特别是在量化微震事件的时间、能量和位置(TEL)方面。研究引入了图卷积(graph convolution)在未来微震事件的TEL预测中的应用,这一方法具有显著的优势,能够在时空预测中提供明显的优势。通过将传感器网络的数据表示为图结构,并利用邻接矩阵,STGCN模型能够高效提取空间特征并捕捉关键的时间特征。以下是关于STGCN预测模型的若干讨论,涵盖了其局限性与进展:
-
图卷积的创新应用:
本研究创新性地将图卷积应用于微震事件TEL的预测。通过将传感器数据表示为图结构,并利用邻接矩阵,STGCN模型能够有效提取空间特征并捕捉时间依赖性。这种结合图卷积和时间卷积的结构,使模型能够无缝地处理时空特征,从而在时空预测中具有明显优势。 -
时间和能量预测数据的局限性:
由于高能微震事件的完整波形记录有限,数据集的可用性受到了一定限制。因此,时间间隔被设定为3小时,总共得到了5453帧数据用于时间和能量预测任务。尽管存在这些限制,STGCN模型在时间-能量趋势预测方面取得了令人印象深刻的表现,预测值和实际值之间的匹配度超过了90%。此外,研究发现,当数据量充足时,缩短时间间隔可以有效减少预测的延迟,提供更及时、更准确的预警。 -
位置预测的挑战:
对于微震事件的位置预测,数据集相对全面,共包含32,731帧数据,时间间隔为30分钟。然而,由于矿区活动的空间范围广泛且微震事件分布不均,数据的不平衡性造成了一定的挑战。由于数据不平衡,未能使用过采样方法来解决这个问题,这在未来的时间序列预测中较为常见。因此,在位置预测中出现了相对较大的绝对误差,尽管相对误差保持在0.08以下。尽管如此,该模型在区域预测方面优于其他深度学习模型,显示了其提供准确位置预测的能力。 -
模型性能与泛化能力:
STGCN模型在时间、能量和位置多个属性的预测中表现出了高水平的性能和准确性。模型的卷积结构显著减少了对大量参数调优的需求,从而加速了训练过程。此外,模型展示了较强的泛化能力。当用于X坐标预测的训练参数直接应用于Y坐标和Z坐标时,模型依然表现良好,说明该模型具有较强的通用性,能够适用于不同的场景。 -
对微震风险预测的影响:
本研究的结果代表了微震风险预测的显著进展。通过准确预测微震事件的时间、能量和位置,STGCN模型为微震风险预警提供了有价值的见解和技术支持。这对地质灾害监测与预警系统的发展具有深远的影响,特别是在矿业等高风险行业的安全管理中,能够提高事故预防和应急响应的效率。
总之,STGCN模型在微震事件TEL的预测中证明了其强大的性能。尽管存在一些数据限制,模型依然能够提供高精度的预测,标志着微震风险预测和地质灾害监测领域的一次重要进步。
5. 结论
本研究基于现场矿井微震(MS)数据,开发并验证了一个基于STGCN深度学习的微震事件TEL(时间、能量和位置)定量预测模型。该过程包括处理微震监测数据、量化传感器连接性作为网络输入,然后进行模型优化,以测试STGCN模型在微震事件TEL预测中的表现。主要结论如下:
-
STGCN模型的应用:
本研究使用STGCN模型对未来微震事件的TEL进行了精确预测。该方法无需对原始微震数据进行复杂的预处理,仅通过基于传感器间距计算传感器网络的邻接矩阵,构建网络图,并通过时空图卷积捕捉相关的时空特征。这种方法简便且具有较强的通用性,成为了一个有价值的工具。 -
模型在微震风险预警中的表现:
为了评估STGCN模型在微震风险预警中的表现,本研究使用了现场微震监测数据。研究结果表明,预测值与实际值之间的C值超过0.90,微震事件位置预测的平均绝对误差(MAE)为89米,平均相对误差(MRE)为0.05,平均C值为0.91。这些结果强调了STGCN模型在预测性能和准确性方面的强大能力,为微震风险预警提供了先进的技术支持。 -
未来研究方向:
未来的研究可以将更多的地质信息和其他数据源集成到STGCN模型中,以提供更加全面和精确的微震风险预警系统。此外,开发一个集成STGCN模型的实时监测系统,将有助于持续监测微震事件,进行时空和风险层次上的早期预警,加速关于潜在微震风险的决策过程,确保工作人员安全并防止灾难性事件的发生。
总之,本研究表明,STGCN模型在微震事件TEL预测中展示了出色的表现,并为微震风险预警系统的技术进步提供了有力支持。
参考文献
[1] Song Y, Wang E, Yang H, et al. Prediction of time-energy-location of microseismic events induced by deep coal-energy mining: deep learning approach[J]. Journal of Rock Mechanics and Geotechnical Engineering, 2025, 17(1): 233-244.