【论文阅读12】-时序预测-LiteTransNet（Transformer 简化）

SSWDUT

已于 2025-04-13 09:45:27 修改

阅读量356

点赞数 5

分类专栏： 📚 论文阅读笔记文章标签：论文阅读 transformer 深度学习

于 2025-04-07 10:08:01 首次发布

本文链接：https://blog.csdn.net/wangshangshang09/article/details/147036344

版权

📚 论文阅读笔记专栏收录该内容

32 篇文章

订阅专栏

【论文阅读12】-LiteTransNet：一种可解释的滑坡位移预测方法，基于带有注意力机制的Transformer模型

Ge Q, Li J, Wang X, et al. LiteTransNet: an interpretable approach for landslide displacement prediction using transformer model with attention mechanism[J]. Engineering Geology, 2024, 331: 107446.

原文代码Git-Hub

这篇论文提出了 LiteTransNet，一种轻量化的 Transformer 网络，旨在提升滑坡位移预测的准确性、可解释性和计算效率。通过减少模型层数和注意力头数，LiteTransNet 保留了自注意力机制，减少了可训练参数，避免了过拟合，并提高了计算效率。尽管参数量较传统 RNN（如 LSTM 和 GRU）多，但得益于 Transformer 的并行计算能力，LiteTransNet 的训练效率提升了约 100%。

摘要

准确的滑坡位移预测对于建立有效的预警系统以减轻灾害具有至关重要的意义。由于滑坡变形机制的影响，预测过程中历史信息的重要性会随时间变化。
存在问题
尽管动态机器学习模型（如长短期记忆网络 LSTM 和门控循环单元 GRU）已经取得了一定进展，但它们在捕捉和解释历史信息在不同时间点的重要性方面仍存在困难，导致预测精度下降，并限制了对滑坡物理机制的理解。此外，这些方法依赖于人工特征选择，这一过程独立于模型学习，容易引入估计误差。
本文方法
为应对这些挑战，我们提出了 LiteTransNet，一种专为滑坡位移预测设计的轻量级 Transformer 网络。该模型基于革命性的 Transformer 序列数据建模框架，通过局部自注意力机制，能够有选择性地关注相关时间点，并通过注意力热图提供可解释的预测结果。此外，LiteTransNet 实现了端到端的时间序列建模，无需繁琐的特征工程。
结果结论
我们在中国三峡库区的两个滑坡案例中验证了 LiteTransNet 的有效性，结果表明其在准确性方面优于基于特征选择方法的循环模型。值得注意的是，LiteTransNet 生成的注意力热图提供了对模型时间依赖性学习的可解释洞见，揭示了历史信息在不同时刻的重要性变化，展示了其注意力机制如何与导致滑坡系统显著扰动的外部环境特定时期相对应。我们的研究发现，这些扰动在其影响消退或被后续强烈扰动取代之前，会持续影响位移预测，而传统的循环方法无法捕捉这一过程。

进一步实验表明，LiteTransNet 通过其精简的结构和并行化能力提高了模型的效率。总体而言，LiteTransNet 在滑坡预测方面实现了准确性、可解释性和效率的突破，增强了对滑坡变形机制的理解，有助于构建更有效的预警系统。

1. 引言

引出话题

滑坡具有极强的破坏力，会在山区造成严重的人员伤亡和财产损失（Du 等，2013；Miao 等，2022；Sun 等，2021）。位于长江上游的中国三峡库区（TGRA）自2003年首次蓄水以来，已发生多起滑坡，使该地区成为地质灾害的高风险区域（Tang 等，2019；Zhou 等，2022）。受强降雨和周期性库水位变化的影响，许多滑坡表现出阶梯状变形特征，在加速与减速变形状态之间交替变化（Liao 等，2020）。由于技术和财政资源的限制，在 TGRA 内对所有滑坡风险进行直接的工程治理是不现实的。因此，建立可靠的预警系统成为了更为可行的解决方案（Bovenga 等，2022）。准确的滑坡位移预测在风险管理与预警中至关重要（Gong 等，2021）。在 TGRA，多个滑坡通过 GPS 监测站记录其位移。因此，当前的挑战是开发一种能有效利用监测数据、并在可接受误差范围内预测滑坡位移的方法。

传统研究方法

自 Saito 提出滑坡破坏时间预测公式以来（Saito，1965），已有多种模型被提出用于滑坡位移预测。通常，滑坡位移预测方法可分为物理模型和现象学模型（Cascini 等，2022）。物理模型通过研究岩土材料特性（Corominas 等，2005；Miao 等，2024）与边坡运动之间的关系，考虑如岩土性质变化和地下水流动等因素（Hilley 等，2004；Calvello 等，2008），以加深对滑坡机制的理解。然而，力学参数的不确定性阻碍了其预测精度。相较之下，现象学模型则通过数学建模直接反映变形趋势，无需与物理或力学参数建立关系（Zhang 等，2023；Wang 等，2023b）。现象学模型的发展经历了经验模型、统计模型到智能模型三个阶段。经验和统计模型由于计算复杂性和变量不确定性，存在一定局限（Phoon 等，2022；Jiang 等，2023），而近年来借助机器学习（ML）揭示数据中复杂关系的智能模型逐渐受到关注（Tehrani 等，2022；Dikshit 等，2021）。

机器学习方法

基于机器学习的模型，如人工神经网络（ANN）（Mayoraz 和 Vulliet，2002；Du 等，2013；Lian 等，2015；Guo 等，2020）、支持向量机（SVM）（Liu 等，2014；Wen 等，2023；Ma 等，2022a）和极限学习机（ELM）（Cao 等，2016；Zhu 等，2022；Li 等，2023），通常考虑影响因子与滑坡位移之间的静态关系。为了更好地捕捉滑坡演化过程的动态性并有效利用历史信息，先进的循环神经网络（RNN）模型如长短期记忆网络（LSTM）（Yang 等，2019；Xing 等，2020；Khalili 等，2023）和门控循环单元（GRU）（Zhang 等，2022；Ge 等，2023）应运而生。

存在问题

在滑坡位移的时间序列建模中，不同时间点的历史信息对未来预测的影响程度可能不同。例如，一次强降雨事件在预测未来位移时的重要性，可能会随时间变化而改变，这是由于该过程受到降雨入渗对滑坡的动态影响、滑坡的水文地质特征以及滑坡演化状态的共同作用所致。然而，尽管 LSTM 和 GRU 等循环模型具备处理时间序列中时间依赖关系的能力，但它们往往难以准确捕捉并明确解释不同时间点历史信息的重要性。这是因为循环模型在处理序列时采用固定权重，难以根据时间动态调整各时间点的重要性，尤其是在建模长期依赖关系方面存在局限（Reza 等，2022）。因此，这种“黑盒”特性阻碍了对滑坡变形潜在机制的深入理解。

此外，当前主流的基于 ML 的滑坡位移预测方法通常在模型训练前执行特征选择。这一过程需为多变量时间序列在不同时间滞后下选择特征。常用的方法如互信息相关性（MIC）（Wang 等，2023a）或灰色关联分析（GRA）（Li 等，2023），用于评估特征的重要性，并决定最终选用的特征。但这种模型无关的特征工程方法独立于后续的 ML 模型训练，可能导致信息丢失或误差。
先进方法
近年来，Transformer 网络作为一种先进的深度学习架构，通过自注意力机制革新了 RNN 的序列结构。该机制使 Transformer 能够对输入序列中不同位置赋予不同的重要性，从而提升滑坡位移预测的准确性，并增强模型的可解释性。同时，Transformer 的注意力权重是从时间序列中自动学习获得的，无需复杂的特征工程。总体来看，Transformer 架构在解决传统循环网络的关键限制方面，具有极大潜力，可提升滑坡位移预测的效果。
本文方法
为克服上述问题，本文提出了 LiteTransNet，一种专为 TGRA 水库滑坡位移预测设计的轻量级 Transformer 网络。与依赖人工特征选择、容易引入信息损失或偏差的 RNN 基准模型不同，LiteTransNet 直接以原始时间序列作为输入，并通过局部自注意力机制实现端到端学习。此外，LiteTransNet 集成的注意力热图为理解滑坡变形机制提供了直观解释，这是现有方法所缺乏的重要能力，使模型能够学习滑坡时间序列中的动态时间依赖关系。

我们将 LiteTransNet 与采用 MIC 或 GRA 进行特征选择的 LSTM 与 GRU 基准模型进行了对比验证，实验对象为 TGRA 中两个具有阶梯状变形模式的典型滑坡。结果表明，LiteTransNet 在预测精度和鲁棒性方面均优于传统方法，并通过时间依赖可视化提供了可解释的洞见。为推动后续研究，我们已将 LiteTransNet 模型的代码开源于 GitHub： https://github.com/jli0117/LiteTransNet

2. 方法论

2.1 趋势位移预测方法

在基于机器学习模型的水库滑坡位移预测中，累计位移 ( D ) 被分解为两部分：表示滑坡演化趋势的趋势位移 $\alpha$ ，以及受降雨和水位变化等因素影响而产生波动的周期性位移 $\beta$ （Yang 等，2019）。这两个分量分别预测，然后组合起来以获得最终的预测累计位移。

在分解过程中，使用 Hodrick–Prescott（H–P）滤波器将累计位移分解为趋势部分与周期性部分。由于双指数平滑（Double Exponential Smoothing, DES）方法结构简单、对具有明显趋势的序列预测效果良好，因此被用于趋势位移的预测。

关于 H–P 滤波器与 DES 方法在滑坡位移预测中的详细应用，可参考 Ge 等（2023）和 Jiang 等（2021）。

2.2 周期性位移预测方法

2.2.1 用循环神经网络（RNN）模型预测周期性位移

循环神经网络（如 LSTM 和 GRU）被广泛应用于滑坡位移的预测。这类网络因其善于利用历史信息而具有显著优势。通常，这种方法结合特征选择或相关性分析，包含三个主要步骤：

列出可能影响周期性位移的因素；
通过计算相关系数选出与周期性位移高度相关的输入特征；
基于筛选结果训练独立的机器学习模型。

通过这种方式构建的模型作为本文提出方法的对比基准。以下是本研究中使用的特征选择方法与 RNN 算法的简要介绍：

(1) 特征选择方法

已有研究表明，TGRA 滑坡的周期性位移主要受降雨、水库水位及其先前位移等诱发因素影响（Wang 等，2019）。因此，将这些因素作为输入变量至关重要。此外，降雨与库水位的影响具有一定滞后性，说明需要引入前期降雨量、水位以及水位变化量作为输入变量。
在这里插入图片描述

因子类型	候选变量	相关性分析方法
触发因素	a1. 当月水库平均水位	MIC & GRA（灰色关联）
	a2. 前一个月水库平均水位
	a3. 前两个月水库平均水位
	a4. 当月水库水位变化量
	a5. 前一个月水库水位变化量
	a6. 当月降雨量
	a7. 前一个月降雨量
	a8. 前两个月降雨量
	a9. 当月及前一个月累计降雨量
状态因素	a10. 前一个月周期性位移量	PACF
	a11. 前两个月周期性位移量
	a12. 前三个月周期性位移量

本研究参考 TGRA 相关研究（Huang 等，2017；Liu 等，2020；Ge 等，2022；Ma 等，2022b；Wang 等，2022）中常用的 12 个输入变量，作为候选输入变量列于表 1 中。为确保预测的准确性，需要评估各候选变量与滑坡变形之间的相关性，仅选取高度相关的变量作为模型输入；因为弱相关变量可能引入噪声，影响预测精度。

如表 1 所示，采用了广泛应用于识别时间序列滞后程度的偏自相关函数（PACF） 方法，用于识别周期性位移的最优滞后阶（Wang 等，2019）。此外，在 TGRA 的相关研究中，最大信息系数（MIC） 与灰色关联分析（GRA） 被广泛用于触发因素输入变量的筛选（Wang 等，2023a；Li 等，2023）。本研究分别采用这两种方法对 RNN 模型的输入特征进行筛选。

（2）LSTM 与 GRU 网络架构

LSTM 与 GRU 网络通过捕捉时间序列中的时序动态，在 TGRA 地区的滑坡位移预测中表现出了卓越的性能。本研究在进行特征选择后，利用 LSTM 和 GRU 网络构建机器学习模型，用于周期性位移的预测。

LSTM 网络由输入层、隐藏层和输出层组成。如图 1 所示，展示了 LSTM 在某一时间步的网络结构。隐藏层由多个记忆单元（memory blocks）构成，各时间步之间的单元互相连接。每个记忆单元包括输入门（input gate）、遗忘门（forget gate）、输出门（output gate）以及记忆单元本体（memory cell）。各个门控结构的功能如下：

输入门控制当前输入信息的写入；
遗忘门决定前一状态信息的保留程度；
输出门将重要的状态信息传递至下一个时间步。

GRU 网络相较于 LSTM，具有更简化的结构，其记忆单元仅包括更新门（update gate）和重置门（reset gate）（如图 1 所示）：

重置门控制从前一时间步传递来的信息保留程度；
更新门则决定当前时间步中，前一状态信息和当前输入共同构成输出的比例。

2.2.2 基于 Transformer 的周期性位移预测

Transformer 模型由 Vaswani 等人（2017）在论文 Attention is All You Need 中提出，其通过自注意力机制处理输入输出序列。与传统 RNN 模型相比，Transformer 在结构上更加并行化，训练效率显著提高。

Transformer 中的注意力机制可以识别时间序列中不同时间点之间的依赖关系，而不受时间间距限制，使模型能够动态地为输入序列中不同时间点分配权重，从而增强预测能力。

与传统的手动特征工程方法不同，本文提出的基于 Transformer 的周期性位移预测模型，直接使用原始测量时间序列作为输入，无需手动特征选择。通过自动特征提取，该模型实现了更高效、更统一的特征学习过程，从而提高滑坡位移预测的准确性。

Transformer 模型基本结构

Transformer 模型采用编码器-解码器架构：

编码器将输入序列 $X = (x_1, ..., x_T)$ 映射为连续表示序列 $Z = (z_1, ..., z_T)$ ；
解码器基于编码后的表示 $Z$ ，生成输出序列 $Y = (y_1, ..., y_T)$ 。

编码器与解码器都由多层自注意力机制与位置前馈神经网络组成。

在这里插入图片描述

Transformer 的核心组件是缩放点积注意力（Scaled Dot-Product Attention, SDPA），用于捕捉序列中任意位置间的依赖关系（见图 2a 中的 “SDPA” 模块）。输入向量 $X$ 经过线性变换得到查询、键和值矩阵：

$XW^Q, \quad K = XW^K, \quad V = XW^V$

SDPA 的计算公式如下：

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

其中， $d_k$ 为键向量的维度。点积操作得到查询与所有键之间的相似度，softmax 函数将其转化为概率分布，最终用于加权求和得到输出。

此外，Transformer 使用多头注意力机制（multi-head attention）来并行计算多个注意力子空间。Transformer 中的三种关键注意力机制包括：

编码器自注意力：捕捉输入序列内部的依赖；
解码器自注意力：通过遮蔽未来信息进行自回归预测；
编码器-解码器注意力：解码器关注编码器中与当前输出相关的内容。

位置前馈神经网络（Position-wise FFN）独立作用于每个时间位置，通过相同的线性变换处理每个位置：

$\text{FFN}(X) = \max(0, XW_1 + b_1)W_2 + b_2$

该结构可有效提取时间序列中的局部模式与长期依赖关系。

此外，Transformer 引入了残差连接（Residual Connection）与层归一化（Layer Normalization）机制（见图 2a 中的 “Add & Norm” 模块），用于缓解梯度消失问题、增强模型深度与稳定性。批归一化（Batch Normalization）促进训练过程中的收敛。

LiteTransNet：滑坡位移预测的轻量 Transformer 网络

尽管 Transformer 网络在滑坡位移预测中表现出良好的潜力，但其较高的计算复杂度对地质灾害监测中通常样本数量有限的场景造成挑战。

为此，本文提出了名为 LiteTransNet 的轻量级 Transformer 网络，专为处理滑坡监测中的小样本数据而设计。该网络通过简化架构，替换部分模块为更高效的实现方式，从而提升运行效率和实际应用的可行性。

精简的网络架构

传统的 Transformer 模型尽管在各类任务中表现优异，但在处理小规模数据集时计算开销大且容易过拟合。原始 Transformer 架构采用六层编码器与解码器、八个注意力头（Vaswani 等，2017），对于数据有限的场景来说显得过于庞大。

本研究中提出的 LiteTransNet 模型将其规模缩减为 两层结构，并采用单一注意力头，大大降低了计算负担并有效减少过拟合风险。这种精简架构提升了模型的泛化能力，更适用于滑坡监测等小样本任务。

局部注意力机制

在 LiteTransNet 中，我们对传统的全局注意力机制进行了改进（见图 2b）。原始 Transformer 模型采用全局注意力，即在计算注意力权重时考虑整个输入序列，但这在某些应用中既不高效也不必要。

为此，本文将全局注意力替换为局部注意力机制，限制注意力的作用范围仅在输入序列的固定窗口内，从而显著降低了计算复杂度并提高效率。窗口大小由参数 $s$ 控制，表示每个时间点所能关注的过去时间步数。

对于输出序列中的第 $i$ 个位置，局部注意力只考虑大小为 $s$ 的窗口内的键 $K$ 和值 $V$ ，其注意力函数保持与公式 (2) 相同。通过一个掩码矩阵 $M$ 实现窗口限制，其定义如下：

$M_{ij} = \begin{cases} 0, & \text{if } |i - j| \leq s \\ -\infty, & \text{otherwise} \end{cases} \tag{4}$

此掩码确保对于任意查询 $Q$ ，仅考虑其窗口范围内的键值对，其他位置被赋予负无穷，从而在 softmax 中的贡献趋近于零。

局部缩放点积注意力计算公式为：

$\text{LocalizedAttention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + M\right) V \tag{5}$

该机制使 LiteTransNet 能更专注于局部时序信息，适用于滑坡预测中时间依赖性较强的场景，提升了效率与预测相关性。

更新的嵌入与前馈层

此外，LiteTransNet 将标准 Transformer 中的词嵌入与位置编码模块替换为更为简单的线性变换层（见图 2a 中 “Input/Output Linear Transformation” 模块）。该层通过一个学习的线性映射将输入特征直接投影到隐藏空间，无需执行高成本的嵌入查找。

其操作为：输入特征通过权重矩阵进行线性变换，并经过激活函数得到输出表示，从而在保持关键信息提取能力的同时，显著降低计算开销。

在解码器输出层，我们采用Sigmoid 激活函数，以更适应滑坡位移的回归预测任务。通过将模型容量集中在自注意力机制上，而非大型嵌入向量上，LiteTransNet 在样本较少的情况下也能有效提取关键信息，实现精确预测。

该网络保留了 Transformer 的关键优势，如时间点间的动态注意机制与端到端特征提取能力，同时具备更高的计算效率，尤其适合于滑坡位移预测这类小样本任务。

回归任务的损失函数

对于滑坡位移的回归预测任务，LiteTransNet 及 RNN 基线模型均使用均方误差（MSE）损失函数，其计算公式如下：

$L_{MSE} = \frac{1}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i)^2 \tag{6}$

其中， $n$ 表示样本数量， $y_i$ 表示第 $i$ 个时间点的观测值， $\hat{y}_i$ 表示第 $i$ 个时间点的预测值。

超参数与模型优化

各模型的超参数通过网格搜索（grid search） 方式进行优化：

对于 Transformer 模型（包含两个编码器模块），我们搜索以下参数组合：
- 编码器/解码器网络节点数： ${16, 32, 48\}$
- 查询、键和值的维度大小： ${1, 3, 5\}$
- 局部注意力窗口大小 $s$ ： ${6, 9, 12\}$
对于 LSTM 与 GRU 模型（均包含两层隐藏层），网格搜索参数包括：
- 批次大小： ${6, 9, 12\}$
- 每层节点数： ${40, 60, 80\}$
- Dropout 比例： ${0.1, 0.2, 0.3\}$

2.3 评估指标

为评估模型预测性能，我们使用以下三种指标：

均方根误差（RMSE）
平均绝对误差（MAE）
决定系数（ $R^2$ ）

其中 RMSE 与 MAE 衡量观测值与预测值之间的偏差，数值越小表示预测效果越好；而 $R^2$ 衡量观测值与预测值之间的线性相关性，其值越接近 1 表明预测性能越好。公式如下：

$\text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i)^2}, \quad \in [0, +\infty) \\$

$\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |\hat{y}_i - y_i|, \quad \in [0, +\infty) \\$

$R^2 = 1 - \frac{\sum_{i=1}^{n} (\hat{y}_i - y_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}, \quad \in [0, 1] \tag{7}$

其中 $n$ 为样本总数， $y_i$ 为观测值， $\hat{y}_i$ 为预测值， $\bar{y}$ 为观测值的平均值。

考虑到机器学习模型本身具有一定的不确定性，不同运行结果可能会有所波动，因此，单次运行结果可能具有随机性且不可复现。为此，在周期位移预测任务中，我们对每个模型进行了 100 次独立运行，并使用其平均值作为最终评估指标，标准差（SD）则用于评估模型的稳定性。

2.4 实现流程

图 3 所示流程图展示了 LSTM 与 GRU 基线模型的实现步骤，具体流程如下：

在这里插入图片描述

首先，使用 H–P 滤波方法 对累积滑坡位移进行分解，提取出趋势位移与周期位移两部分。随后，使用 DES 方法对趋势位移进行预测。
第二步，依据表 1 中的候选变量进行输入特征选择与相关性分析，在此基础上构建 LSTM 与 GRU 模型，作为预测周期位移的基线模型。
然后，对于所提出的 LiteTransNet 模型，直接将降雨量、水库水位和历史位移的多变量时间序列输入到网络中，利用注意力机制进行周期位移预测。
随后，基于 Transformer 的注意力机制生成注意力热力图，可视化输入序列中各时间步对滑坡位移预测结果的相对重要性。
最后，将基线模型与 LiteTransNet 模型预测的周期位移，与趋势位移预测结果相结合，得到最终的累积位移预测值，并通过评价指标进行验证与对比分析。

3. 研究区与数据来源

本研究选取了三峡库区（TGRA）内的白家包滑坡与白水河滑坡作为案例研究对象。这两个滑坡被认为是三峡库区滑坡变形的典型代表，皆具有明显的阶段性变形特征，但其变形机制存在显著差异。

白家包滑坡起初表现出后退型变形特征（由下部牵引力引起），随后转变为推移型变形（由上部推力引起）（Huang & Chen, 2007）；
白水河滑坡则是典型的后退型滑坡（Yao 等，2019）。

此外，这两处滑坡均有长期的监测数据支持，为机器学习模型的训练与构建提供了可靠基础。

3.1 白家包滑坡

白家包滑坡位于中国三峡库区香溪河西岸（图 4a-b），其主要滑动方向垂直于香溪河（图 4c），方位角为 $N82^\circ E$ （Li 等，2021）。滑坡前缘淹没于香溪河中，后缘受限于基岩与覆盖土体之间的界面。左右边界由季节性发育的同源沟谷限定。
在这里插入图片描述

滑坡地形特征如下：

前缘高程： $160\sim175\,\text{m}$
后缘高程： $265\,\text{m}$
滑坡宽度：约 $550\,\text{m}$
滑坡长度：约 $400\,\text{m}$
平均厚度：约 $45\,\text{m}$
总体积估算： $9.9 \times 10^6\,\text{m}^3$

滑体主要由粉质黏土与碎石堆积物构成，呈松散无序状态；滑床为侏罗系香溪组的粉砂质泥岩与泥质粉砂岩。滑面位于堆积层与下伏基岩的界面（Yao 等，2019）。

为监测地表位移，在滑坡区域布设了 4 个 GPS 监测站点（ZG323–ZG326，见图 4c），自 2006 年起按月采集数据。

图 4d 展示了站点 ZG326 于 2006 至 2018 年的监测数据，包括 GPS 位移、水库水位与降雨数据。该站点因拥有最多的观测数据与最大位移幅度，被选为本研究的代表性样本。

训练集时间段：2015 年 12 月至 2016 年 8 月
测试集时间段：2016 年 9 月至 2018 年 8 月

监测数据显示，在整个观测周期内滑坡处于持续变形且不稳定状态：

在汛期与水库消落期，滑坡发生短时快速变形；
在蓄水期与枯水期，滑坡趋于稳定。

3.2 白水河滑坡

白水河滑坡位于三峡库区长江南岸，距三峡大坝约 56 公里（图 5a-b），为一处扇形的后退型滑坡，滑坡覆盖面积为 $0.42\,\text{km}^2$ （Miao 等，2021）。滑坡最大长度为 $780\,\text{m}$ ，宽度约 $430\,\text{m}$ ，平均厚度为 $30\,\text{m}$ ，滑动方向为 $N20^\circ E$ 。滑坡总体积估算为 $1.26 \times 10^7\,\text{m}^3$ 。
在这里插入图片描述

自 2003 年起，对该滑坡开展了专业化监测，以应对其对沿江居民安全造成的严重威胁，提供预警服务。现场调查与监测数据显示，白水河滑坡可划分为两个滑体：一个为活动滑块 A，另一个为相对稳定滑块 B（图 5c）。滑体主要由碎裂岩石、粉质泥岩与含砾土组成，滑床岩性主要为侏罗系粉砂岩、粉质泥岩与石英砂岩（Li 等，2019）。

为进行变形监测，滑坡区域内布设了 11 个 GPS 监测站点（图 5c），其中 ZG93 站点位于滑块 A 的中心，代表性强，用于刻画滑坡整体行为。

图 5d 展示了 ZG93 站点于 2003 年至 2013 年的监测数据，包括：GPS 位移、水库水位与降雨量。ZG93 的数据被划分为：

训练集：2003 年 8 月至 2011 年 12 月
测试集：2012 年 1 月至 2013 年 12 月

白水河滑坡的变形特征与白家包滑坡相似，主要在每年 5 月至 8 月期间发生短期快速变形，恰逢水库低水位与强降雨时期。

4. 结果分析

4.1 趋势位移预测

对于具有年度周期特性的时间序列，H–P 滤波器的平滑参数设定为 $100$ 。图 6 展示了白家包与白水河滑坡经 H–P 滤波提取得到的趋势项与周期项。
在这里插入图片描述

使用 DES（双指数平滑）方法对趋势项进行预测时，采用的最优平滑参数为： $\alpha = 0.99$ ， $\beta = 0.98$ （Jiang 等，2021）。图 6(i)c 与图 6(ii)c 展示了两处滑坡的预测趋势位移，预测值与分解所得的趋势项高度吻合。

测试集上的评价指标如下：

白家包滑坡：RMSE = 1.27，MAE = 1.01， $R^2 = 0.99$
白水河滑坡：RMSE = 0.75，MAE = 0.65， $R^2 = 0.99$

4.2 周期位移预测

4.2.1 输入特征选择

图 7 显示了表 1 中候选变量与白家包滑坡周期位移之间的相关性分析结果。针对 RNN 模型（即 LSTM 与 GRU），使用 MIC（最大信息系数） 与 GRA（灰色关联分析） 分析方法时，触发因子与周期位移的相关性结果存在显著差异。
在这里插入图片描述

例如：变量 $a_3$ （即过去两个月的平均水库水位）被 MIC 判定为最关键的变量，而在 GRA 中则被认为最不重要。这说明，不同相关性分析方法在确定滑坡触发因素方面存在方法依赖性。

参考文献中，MIC 与 GRA 的选取阈值分别设定为：

MIC 阈值： $0.3$ （Wang 等，2023a）
GRA 阈值： $0.6$ （Li 等，2023）

据此：

基于 MIC，9 个触发因素 $a_1$ – $a_9$ 全部被纳入 LSTM 与 GRU 模型的输入；
基于 GRA，仅选取 $a_4$ – $a_9$ 六个变量。

此外，对于状态因素 $a_{10}$ – $a_{12}$ ，根据偏自相关系数 PACF 满足 $|\text{PACF}| \geq \frac{1.96}{\sqrt{n}}$ （其中 $n$ 为样本数量）（Wang 等，2019），也被选入输入特征。

图 8 展示了白水河滑坡的相关性分析结果，情况与白家包类似：
在这里插入图片描述

MIC 方法选出了除 $a_6$ 外的 8 个触发变量；
GRA 方法选出 $a_4$ – $a_9$ ；
状态变量 $a_{10}$ 与 $a_{11}$ 的 PACF 超过阈值，也被纳入输入特征。

相比之下，所提出的 LiteTransNet 模型无需特征选择过程，直接使用 3 个基于实测的时间序列输入：降雨量、水库水位与历史位移（其中历史位移为周期位移序列的 1 月滞后项），从而避免依赖表 1 中的候选变量与特征选择过程。

4.2.2 模型评估

为评估不同机器学习模型在滑坡周期性位移预测中的性能，本文进行了定量分析与统计分析，结果如图 9、图 10 和表 2 所示。为了评估模型的预测趋势，在散点图中绘制了拟合线，并辅以 95% 置信区间，用于反映在 100 次运行中计算得到的标准差。理想的预测结果应当与 45 度参考线高度一致，即预测值与实际观测值完美匹配。
在这里插入图片描述

如图 9 所示，在白家包滑坡案例中，所提出的 LiteTransNet 模型表现最优。散点点位密集分布于 45 度参考线附近，且拟合线紧贴参考线，清晰地表明了 LiteTransNet 的高预测精度。此观察结果也得到了表 2 中统计指标的支持：LiteTransNet 在各项指标中表现最佳，取得了最低的 RMSE 和 MAE 以及最高的 $R^2$ 。例如，LiteTransNet 的平均 RMSE 为 10.76，相较于表现最佳的基线模型 GRU-GRA（RMSE = 12.76）减少了约 15.7%。

此外，Transformer 模型展现出了最低的标准差，体现出相较于其他机器学习模型更强的稳定性与鲁棒性。

值得注意的是，在白家包滑坡中，采用 MIC 作为特征选择方法的模型（即 LSTM-MIC 与 GRU-MIC）存在预测值偏高的趋势。如图 9 所示，这些模型在多个时间点上均产生了高于实际值的预测，反映出其平均绝对误差（MAE）高于其他基准模型。

另一方面，使用 GRA 的机器学习模型预测中出现了更多的离群点。
在这里插入图片描述

在白水河滑坡的预测中，LiteTransNet 依然表现出优越的综合性能。表 2 显示，在所有基线模型中，尽管 LSTM-GRA 的精度最高，但其 RMSE 与 MAE 分别比 LiteTransNet 高出 5.9% 与 12.6%。此外，尽管 LSTM-MIC 的标准差最低，说明其预测稳定性较强，但在准确性上仍逊色于 LiteTransNet。
在这里插入图片描述

值得注意的是，如图 10 所示，与白家包滑坡的情况相反，在白水河滑坡中，基于 MIC 的特征选择方法存在低估预测值的倾向。表 2 进一步显示，使用 MIC 特征选择的机器学习模型 MAE 普遍高于 GRA 或 LiteTransNet 模型，这再次表明所提模型在无需手动特征选择的情况下展现出了更优性能。

4.2.3 基于注意力机制的模型解释

本节对 LiteTransNet 模型生成的注意力图（Attention Map） 进行解释分析。该图展示了模型在预测滑坡位移时，对输入序列中各时间点关注程度的差异。

为获取注意力图，我们提取了 LiteTransNet 编码器-解码器注意力模块中最后一层的注意力权重，用于表示每个输入时间点对当前输出位移预测的重要性。
在这里插入图片描述

图 11 与图 12 分别展示了白家包与白水河滑坡的注意力热力图。横轴表示测试集中 24 个输出时间点，纵轴代表输入时间序列的相对时间延迟。

如前所述，LiteTransNet 使用三个时间序列作为输入：降雨量、水库水位与历史位移。假设模型当前预测输出时间为 $t$ ，则纵轴中的 “T-0” 表示时间点 $t$ 时的降雨量、水位与历史位移（即 $t - 1$ 时刻的位移值），其余纵轴刻度可类比解释为对应时间延迟下的输入数据。

热力图中的颜色深浅表示注意力权重的大小，即该时间点对预测的重要性。图中高权重区域被以亮蓝色及黑色线段高亮标识。

如图 11 与图 12 所示，我们的结果表明：LiteTransNet 对不同时间延迟输入的关注程度具有动态变化性。具体分析表明，白家包滑坡的模型在每次输出时，都对 6 月至 9 月 这一时间段赋予了较高的重要性；白水河滑坡中则对应 5 月至 8 月。这一现象说明了注意力机制已自动学习到了与外部环境周期变化（如雨季、水位回落期）高度相关的时间窗口。

换言之，强降雨与水位快速变化会对滑坡系统产生强烈扰动，显著影响其变形行为与位移预测。该影响具有动态与延迟效应，持续影响系统一段时间，直到其作用逐渐减弱（图 11），或被下一个强扰动所替代（图 12）。

值得注意的是，如图所示，不同滑坡由于地质条件不同，其对突发环境变化的响应也存在差异：

在白家包滑坡中，外部扰动的影响通常在雨季后逐渐衰减；
而在白水河滑坡中，此类影响通常持续存在，直到下一个强扰动发生。

尽管 LSTM 与 GRU 通过门控机制控制信息流动，但其解释性远逊于 Transformer 网络。前者为顺序处理模型，依赖前一时间点的信息，而 Transformer 则可并行处理所有历史信息，进而捕捉全局时序依赖关系。

LiteTransNet 的注意力热力图不仅验证了模型能够识别并利用相关历史信息，还提供了明确可视化的模型解释。其对不同时间特征赋予不同权重的重要性分配能力，说明了其具有动态适应输入特征的重要性的能力。

这种能力对于深入理解滑坡变形的时间动态过程具有重要价值。

4.3 累积位移预测

累积位移通过将预测的趋势与周期性位移相加来计算，其中每个机器学习模型的预测周期性位移是通过 100 次运行的平均值获得的。图 13 和图 14 展示了两个滑坡的预测累积位移。量化评估结果列于表 3 中。上述结果表明，LiteTransNet 模型在两个滑坡的测试集上整体预测精度优于其他模型。此外，它在关键的预警阶段表现出显著的预测精度，这与位移的突变阶段相吻合。在这些突变阶段之间的静止阶段中，LiteTransNet 模型的预测结果与实际监测数据也高度一致。
在这里插入图片描述

另外，如图 13 和图 14 所示，两个滑坡的位移均表现出阶梯式增长，交替出现加速和减速的变形状态。预测性能较差的点主要集中在突变点（加速变形点），这些点相较于静止变形点较少，因此属于少数类，容易在机器学习预测中出现欠拟合。此外，这些突变点往往与显著的环境变化（如强降雨或水库水位变化）相吻合，从而导致预测的不确定性增加。

5. 讨论

Vaswani 等人（2017）提出的原始 Transformer 模型，通过提供一种新的序列数据处理框架，革新了自然语言处理领域。然而，这一复杂性也使得 Transformer 模型不太适合数据量有限的任务，如滑坡位移预测。该架构包括自注意力机制和位置前馈网络，这些虽然有助于捕捉长范围的依赖关系，但同时也增加了计算需求和参数量。原始模型在使用 512 的嵌入大小、8 个注意力头和 2048 的前馈层维度时，约需 6500 万个参数（Vaswani et al., 2017）。因此，在处理像地质灾害监测数据这样有限样本时，这种复杂性可能是多余的，甚至可能对模型的泛化能力产生负面影响，导致过拟合。

为了克服这些限制，我们提出了轻量化 Transformer 模型 LiteTransNet，专门用于滑坡时间序列预测。通过减少模型层数和注意力头，LiteTransNet 保留了核心的自注意力机制来建模时间依赖性，同时大幅降低了可学习参数的数量。

我们对 LiteTransNet 与 RNN 基线模型（如 LSTM 和 GRU）进行了性能评估，使用了两个滑坡数据集。性能比较是在统一的硬件和软件环境下进行的，以确保结果的公平性和准确性。LSTM 和 GRU 模型使用 Python 实现，基于 Keras 深度学习框架和 TensorFlow（版本 2.9.0）作为后端。LiteTransNet 模型则在 PyTorch（版本 1.9.0）上实现。Keras 模型使用 TensorFlow GPU 支持进行加速训练，而 PyTorch 模型则利用 CUDA 和 cuDNN 进行 GPU 加速。软件环境运行在配备 Intel Xeon Platinum 8255C CPU 和 NVIDIA GeForce RTX 2080 Ti GPU 的工作站上。
在这里插入图片描述

图 15 展示了各模型的参数数量与运行时间之间的关系。图中较低的斜率表明计算效率较高。本研究中提出的 LiteTransNet 模型在计算效率上优于 LSTM 和 GRU 模型。具体而言，如表 4 所示，LiteTransNet 相比于 LSTM 和 GRU 模型，使用了约四倍的参数（约 271,695 个，相较于 RNN 模型的平均 60,000 个），但仅需大约两倍的训练时间（平均训练时间为 4090.55 秒，相比之下，RNN 模型的训练时间大约为 1500 秒）。这意味着训练效率提高了大约 100%，使 LiteTransNet 成为数据有限情况下，滑坡位移预测应用中更为可行的选择。

与 LSTM 和 GRU 等循环模型依赖于顺序处理不同，LiteTransNet 具有优越的并行化能力，这归功于其非顺序架构。这使得 LiteTransNet 能够充分利用 GPU 硬件，从而进一步提高了训练效率。尽管与基线模型相比，LiteTransNet 的计算成本较高，且参数量较大（如表 4 所示），这需要更精细的超参数调整，可能面临一定挑战。然而，我们认为，通过 LiteTransNet 在准确性、可解释性和端到端学习方面的多重优势，这些成本是可以被合理化的。具体来说，集成的注意力机制提供了对时间依赖关系的洞察，同时消除了手动特征选择的需求，并增强了预测的鲁棒性。这些能力为加强预测建模和理解动态滑坡变形机制提供了新的潜力。
在这里插入图片描述

为了展示 LiteTransNet 的泛化能力，本文对其在 TGRA 两个典型滑坡案例中进行了验证。作为 LiteTransNet 输入的多变量时间序列（如降雨量、水库水位和位移），是水库滑坡常见的监测数据。通过利用这些常见输入，LiteTransNet 展现了其在各种水库滑坡场景中的潜在适用性。然而，值得注意的是，虽然 LiteTransNet 在 TGRA 水库滑坡中表现出色，但需要在其他滑坡多发地区进行进一步验证，以全面评估 LiteTransNet 在不同数据分布下的稳健性。

虽然本研究主要集中于将 LiteTransNet 应用于滑坡位移预测，Transformer 架构具有广泛的应用潜力。与 RNN 模型不同，Transformer 能够通过自注意力机制同时处理整个输入序列，直接捕捉长范围的依赖关系。这一点对涉及长时间序列的其他工程地质任务具有积极意义。此外，由于 Transformer 模型的变种可以处理多模态数据（Vaswani et al., 2017；Dosovitskiy et al., 2020），集成多模态地质数据可能为提高预测能力、提供更深入的见解带来巨大潜力。

6. 结论

本研究提出了 LiteTransNet，一种轻量化 Transformer 网络，专为准确、可解释且高效的滑坡位移预测而设计。
首先，我们将 LiteTransNet 与 RNN 基线模型进行了比较验证，使用了 TGRA 区域的两个典型水库滑坡数据。LiteTransNet 在周期性位移的预测性能上表现出了显著提升，Baijiabao 滑坡的均方根误差（RMSE）达到了 10.76，相比最优基线模型提高了 15.7%。对于 Baishuihe 滑坡，LiteTransNet 的均方根误差（RMSE）提高了 5.9%，而平均绝对误差（MAE）提高了 12.6%。
此外，LiteTransNet 的注意力热图通过可视化模型学习到的时间依赖关系，提供了宝贵的模型可解释性。
值得注意的是，LiteTransNet 的注意力机制与外部环境的特定时期相吻合，这些时期引发了滑坡系统中的显著扰动。这些扰动对位移预测产生持续影响，直到其效应减弱或被下一个强烈扰动所取代。
LiteTransNet 基于注意力的架构为时间依赖关系和滑坡变形机制提供了前所未有的洞察能力，这是基线模型所无法比拟的。

此外，实验还强调了 LiteTransNet 通过精简的网络架构展现了其计算效率，相比 RNN 模型，训练效率提高了约 100%，这一切都得益于其良好的并行化能力。
总体而言，本研究介绍了 LiteTransNet，一种为准确、可解释和高效的滑坡位移预测而设计的轻量化 Transformer 网络。该模型为滑坡时间序列建模中的动态时间依赖关系提供了可解释的洞察力，并且未来有望在涉及长时间序列或多模态地质数据的地质任务中进行推广应用。