2024年8月6日~2024年8月12日周报：论文学习记录之《MAU-net: A multibranch attention U-net for full-waveform inversion》-CSDN博客

本文链接：https://blog.csdn.net/m0_53096519/article/details/140939329

前言

论文标题： MAU-net: A multibranch attention U-net for full-waveform inversion （MAU网：用于全波形反演的多分支注意U-net）
期刊： GEOPHYSICS
作者： Hanyang Li1, Jiahui Li2, Xuegui Li3, Hongli Dong1, Gang Xu4, and Mi Zhang5
时间： Manuscript received by the Editor 20 January 2023; revised manuscript received 4 December 2023; published ahead of production 18 January 2024; published online 18 March 2024.（2023年1月20日编辑收到的手稿；2023年12月4日收到修订稿；2024年1月18日生产前发布；已发布：2024年3月18日在线。）
论文地址： https://pubs.geoscienceworld.org/geophysics/article-abstract/89/3/R199/636450/MAU-net-A-multibranch-attention-U-net-for-full
Northeast Petroleum University, Artificial Intelligence Energy Research Institute, Daqing, China; Northeast Petroleum University, SanYa Offshore Oil and Gas Research Institute, Sanya, China and Northeast Petroleum University, Heilongjiang Provincial Key Laboratory of Networking and Intelligent Control, Daqing, China.（东北石油大学人工智能能源研究所，大庆，中国；东北石油大学、中国三亚海洋油气研究所和东北石油大学，黑龙江省网络与智能控制重点实验室，大庆，中国。）

ABSTRACT

数据驱动的速度反演是地震勘探中的一个突出而富有挑战性的问题。反演问题的复杂性和有限的数据集使得很难保证神经网络的稳定性和泛化性。为了解决这些问题，提出了一种称为多分支注意U-Net（MAU-net）的速度反演新方法。MAU-net与以前的数据驱动方法的关键区别在于它不仅能够从数据域中学习信息，而且能够合并以前的模型域信息。MAU网络由两个分支组成：一个分支使用地震记录作为输入，有效地学习数据域和模型域之间的映射关系，而另一个分支则使用先前的地质模型作为输入，从模型域中提取特征，从而指导MAU-net的学习过程。此外，对模型进行了三个主要改进，以提高MAU网络对地震数据的利用率和处理冗余信息。通过消融实验验证了改进的有效性。用Marmousi模型和2004 BP模型验证了MAU-net的性能，它还可以与全波形反演相结合，进一步提高反演结果的质量。MAU网络通过迁移学习技术在现场数据上表现出鲁棒性，进一步验证了其可靠性和适用性。

INTRODUCTION

地震成像是识别和理解地下的一种基本方法（Scales，1995）。例如，它允许地球物理学家将复杂的地震波形转换为估计地下特征（如速度）的物理参数。精确的速度模型是各种地震勘探技术的基础（Biondi和Palacharla，1996；Cheng等人，2016）。20世纪80年代开发的全波形反演（FWI）（Tarantola，1984）现在被认为是速度建模的最准确和最先进的方法。随着硬件设备的发展和数值模拟方法的进步，FWI展示了出色的实际应用，从微尺度超声医学成像（Wells，2006）到中尺度勘探地球物理学（Virieux和Operto，2009），甚至地球内部的超大尺度成像（Tromp，2020）。

FWI的基本原理是迭代更新速度参数，以最小化模拟地震数据和观测地震数据之间的波形差异（Virieux等人，2017）。当差异变得足够小时，在该点生成模拟地震数据的速度参数被认为是真实速度参数的最佳估计。然而，值得注意的是，如果走时差不能满足半波长标准，则FWI将陷入局部极小值。因此，对地震资料的初速度模型和低频成分提出了很高的要求。此外，由于实际地震资料中缺乏低频分量和噪声干扰，通过FWI得到的解往往是非均匀的。为了解决这个问题，研究人员专注于减少问题的非线性，例如使用正则化技术（Xue等人，2017；Aghamiry等人，2019）、联合偏移反演（Qu等人，2018）或先前的地质约束（Singh等人，2021）。

近年来，深度学习（DL）在各个领域得到了广泛关注（Wang等人，2020；Liu和Zhu，2021；Sedaghati等人，2021）。特别是，DL在不同数据域的非线性拟合中表现出优异的性能，例如图片到文本（Agnese等人，2020）、图像到文本（Farhani等人，2017）和信号到图像应用（Chen等人，2020年），这引起了地球物理学家的兴趣。如今，DL已成功地应用于各种地球物理应用，如地震数据去噪（Richardson and Feller，2019；Zhu et al.，2019）、地震数据插值（Wang et al.2019）和地球系统分析（Reichstein et al.、2019）。此外，还出版了地球物理DL的综述（Yu和Ma，2021）和反问题DL的评述（Adler等人，2021年）。特别是，深度神经网络在速度反演领域显示了一些有希望的结果，根据神经网络的作用，速度反演大致分为间接反演和直接反演（AlAli和Anifowose，2021）。 间接反演是指利用神经网络来辅助传统反演方法，例如计算梯度（Richardson，2018）、低频外推（Ovcharenko等人，2019）和基于神经网络的先验约束（He和Wang，2021）。在Colombo等人（2021）的工作中，他们提出了一种结合传统FWI和DL技术的工作流。该方法使用DL的预测结果来约束FWI，并使用FWI的结果来重新训练网络。

直接反演是指神经网络以原始或增强地震数据为输入，产生速度模型作为输出的过程，这是本文的重点。已经报告了一些关于直接反演的代表性工作，例如，Yang和Ma（2019）使用Unet的模型速度，其中Unet通过跳跃连接对称地连接收缩和扩展路径，逐渐将数据域转换为模型域。尽管在Yang和Ma（2019）中，时间域中输入地震数据的维数和空间域中输出速度模型的维数不同，但传统的Unet（Ronneberger等人，2015）已应用于具有一致输入和输出维数的图像分割。

最近，Fabien Ouellet和Sarkar（2020）证明了将卷积神经网络（CNN）和长短期记忆相结合进行速度估计的能力。他们发现，使用合成地震数据集训练的神经网络在实际地震数据中仍然表现良好。为了解决有限数据集大小的挑战，Cao等人（2021）提出了一种轻量级神经网络，能够使用有限的数据进行快速准确的速度反演。此外，Li等人（2019）提出了一种称为SeisInvNets的神经网络，旨在使用两个不同的CNN从相同的地震记录中提取相邻和全局信息。该方法通过一次热编码来保持源位置和接收器位置之间的空间对应。虽然基于神经网络的速度反演方法已经显示出可行性，但它们的推广性仍然有限，阻碍了它们的实际应用。提高其泛化能力的一个潜在解决方案是合并先验模型域信息（Zhang等人，2021a）。

本文提出了一种新的多分支注意力U-net（MAU-net）来建立速度模型。MAU-net基于经典的U-net网络，但在四个方面进行了改进，利用了地球物理学和DL的先验知识。论文的其余部分构造如下。“方法论”部分介绍了用于求解逆问题的基于神经网络的解决方案。它还提供了MAU-net网络结构的详细描述，并解释了变化背后的动机。在“实验和结果”部分，我们使用小数据集进行消融实验来验证改进的可行性。然后，我们将MAU-net网络的结果与传统的FWI进行视觉比较。然后，我们使用更大和更复杂的数据集训练MAU网络，并使用Marmousi模型和现场数据全面测试MAU网络的性能。在“讨论”部分，我们提出了进一步改进基于神经网络的速度反演方法的潜在方向。最后，“结论”部分简要总结了我们的工作。

METHODOLOGY

Neural network-based velocity inversion

在时域中，具有恒定密度的二维标量声波方程定义为：
$\frac{1}{v^2 (x,z)} \frac{\partial^2 u(x,z,t)}{\partial t^2} - \nabla ^2 u(x,z,t) = S(x,z,t) \tag{1}$
其中 $v (x, z)$ 表示位置 $(x, z)$ 处的速度； $\mu(x,z,t)$ 代表在时间为 $t$ 位置为 $(x, z)$ 处的波场；
$\partial^2$ 拉普拉斯算子，并且 $S (x, z, t)$ 为震源函数。速度反演问题表示为：

$F^{-1}(u) \tag{2}$
其中， $F^{-1}$ 表示非线性反演算子，它求解困难。经典FWI是最小二乘意义上的优化过程，由下式给出：

$\hat{v} = \argmin_{\hat{v}} \frac{1}{2} \| F(v) - F(\hat{v}) \|^2_2 \tag{3}$
其中， $\hat{v}$ 表示预测速度模型， $F(\hat{v})$ 和 $F (v)$ 分别是模拟和观测波形数据， $\| * \|$ 表示L2范数。

FWI的计算成本很高。这种限制可以通过数据驱动、基于神经网络的反演方法来避免。一旦训练完成，这种方法可以在几秒钟内获得结果。为了实现这一点，神经网络经过训练，使用大量数据学习波场和速度参数之间的关系。因此，时域地震数据可以直接映射到空间域速度模型中。这个过程可以理解为拟合一个非线性函数，定义为：
$\begin{align}\left\{\begin{aligned} \hat{V} &= \mathcal{F}(U; \theta)\\ \theta &= \argmin_{\theta} \mathrm{loss}(V,\hat{V}) \end{aligned}\right.\end{align} \tag{4}$
其中 $\hat{V}$ 和 $V$ 分别表示速度模型的预测分布和真实分布。这里， $\theta$ 表示神经网络中的可训练权重， $F$ 表示神经网络， $U$ 是神经网络的输入。本文提出了 MAU-net 来实现这一拟合功能，并随后描述了MAU-net 的具体实现。

Architecture of MAU-net

U-net是全卷积网络的变体之一，已成功应用于医学领域（Liu等人，2021；Zhang等人，2021b；Mazumdar和Mukherjee，2022）。最近，Yang和Ma（2019）以及Alali等人（2021）展示了U-net在速度反演中的成功应用。基于地球物理学的先验知识和速度反演的需要，MAU网络对基线U-net进行了有针对性的改进。MAU-net 的框架如图1所示，虚线框表示变化，包括调用地震数据（RD）、特征提取模块（FM）、注意门（AG）和多分支（MB）。下面将讨论这些更改的动机及其实施细节。
在这里插入图片描述

图1 用于速度反演的MAU-net。虚线概述了与基线U-net相比，MAU-net的额外模块。 RD、FM和AG分别指地震数据的提取、特征提取模块和注意门。消融实验不会改变模型的结构，而只关注添加的模块。

骨干U-net部分由编码器模块和解码器模块两个模块组成，通过跳接操作融合编码器和解码器提取的特征。在MAU网络的编码器模块中，有四个块，每个块包含两个3×3卷积层和一个最大池化层。每当通过编码器块时，特征图中的通道数量都会加倍，特征图的大小也会减半。解码器和编码器的结构是对称的，因此编码器也由四个块组成，其中包含两个卷积层和一个转置卷积层。使用解码器，特征图的大小和数量恢复到其预编码尺寸。

MAU-net模型分支的输入是先验速度模型 （为了获得初始速度模型，我们对速度模型应用高斯平滑函数），它指导了学习过程，提高了MAU-net的稳定性和泛化能力。模型分支的起始层是一个64通道的1×1卷积层。随后，有一个由两个编码块和两个解码块组成的U-net模块，这些块的结构与数据分支中的块相同。这些分支中的特征图的尺寸通过裁剪对齐，然后将它们添加在一起。最后，使用1×1卷积层作为输出层来预测速度模型。MAU-net的输出层使用ReLU激活函数：
$\begin{align} f(x) = \left\{\begin{aligned} &x ,x >0 \\ & \alpha (e^{x}-1), x<0 \end{aligned}\right.\end{align} \tag{6}$

ReLU用于MAU-net的所有层，除了输出层。此外，在除输出层之外的每一层之后施加BN层。BN层通过归一化有助于保持神经网络每一层中的数据具有相同的分布，这可以提高收敛速度并防止过拟合。此外，如果通过跳过连接融合特征图时编码器和解码器特征图的大小不同，则使用有效的填充操作来对齐它们。

在数据分支中，第一步是使用RD更改神经网络的输入格式。这涉及转换 $3 D [S, R, T]$ 张量为 $2 D [S * R, T]$ 张量，通过连接源和接收器。我们执行此转换是因为：在多通道卷积过程中，每个通道都有一个卷积核，用于执行卷积并产生通道卷积输出。通过将所有通道的卷积输出相加来获得最终的卷积结果。因此，每一点最终卷积结果的组合是相应相同区域中所有信道信息的组合。
请添加图片描述
当两个震源（称为 $S_1$ 和 $S_2$ ）相距甚远时，地震剖面 $S_1,R,T]$ 和 $S_2,R,T]$ 捕获来自不同区域的局部速度信息，因为它们的传播路径不同。因此，当使用多通道卷积运算时，从 $S_1,R,T]$ 和 $S_2,R,T]$ 中提取特征，导致从每个通道提取的特征之间存在明显差异。这就提出了一个问题，即地下的哪个部分对应于通过将所有通道相同位置的特征相加而获得的特征点的速度信息。尽管在使用 $[S, R, T]$ 作为输入时，深度神经网络在理论上是一个通用的拟合函数，多通道卷积运算失去了震源和接收器之间的规律性，导致在提取的特征图和速度模型之间建立对应关系时出现混乱。这反过来又给神经网络的学习过程增加了困难。因此，通过将初始卷积层中的通道数量从 $S$ 减少到1，使用 $R D$ 运算来解决这个问题。

后面是特征提取模块。 $FM$ 由一个大规模的7×7卷积层和两个小规模的3×3残差块组成。关于残差块，请参考He等人（2016）的研究。大规模卷积核具有更大的接收域，可以提取更多的信息，适用于稀疏地震数据的初始特征提取。 小规模卷积核具有较少的参数和较低的内存要求。多个小规模卷积层可以提供更大的非线性变换能力。残差块有助于解决深度神经网络的退化现象，并有助于训练神经网络。

采用FM的一个现实原因是需要降低RD操作带来的内存成本。在U-net结构的输入大小中，计算和内存要求是二次方的。FM压缩地震数据以提取后续模块的有效特征，从而降低内存需求。FM的另一个好处是它不包括跳过连接。这是因为基于神经网络的反演是一个从数据域（地震记录）映射到模型域（速度模型）的问题。映射是一个连续和渐进的过程，其中低级特征直接从数据域中提取并与之高度相关，而高级特征与模型域高度相关。尽管我们无法完全理解神经网络每一层的学习内容以及低级和高级特征之间的确切关系，但我们认为，由于浅卷积层的弱非线性和小视场，低级特征大多是局部数据域特征。因此，我们认为没有必要将它们“融合”到与模型领域高度相关的高级特征中。

在融合编码器和解码器特征的跳跃连接部分，使用了AG，希望网络能够更加关注与速度模型相关的特征。使用AG的动机与使用特征提取模块的动机相似，因为并非所有编码特征（低级特征）都适合通过跳跃连接操作与解码特征（高级特征）融合。这是因为速度信息主要包含在潜波中，而地震记录中包含的其他波，如超临界角反射波，将提供大量冗余和不相关的特征。这些特征将被跳过连接操作反复调用，对网络的训练提出了挑战。尽管如此，它们在稳定基于模型的反演过程方面是有用的，可能有助于提高神经网络的鲁棒性。

资料补充：随着地震道数的不断增多，即炮检距的增大，在一些地区上接收到一种特殊的波——超临界角反射波。下图是一张野外的单炮记录，从该记录上可以清楚地看到一个能连续追踪、穿过初至区的反射波，此反射波称为超临界角反射波。它具有三个特点：

①出现在初至之外，表现为双曲线同相轴的一部分；
②振幅能量强；
③频率较低；

以往超临界角反射仅仅用来研究地壳的结构，在找油方面没有得到应用。现在可以通过增加地震道数来获得较大的炮检距，以获得超临界角反射的有效信息。

潜水波/潜波（Diving wave）：地震波在地表非垂直入射于速度有垂向梯度的水平连续介质时，透射波射线遵循斯奈尔定律传播到最大穿透深度后立即回折传返地面，就像潜者入水到最大深度后再浮出水面一样，射线轨迹呈圆弧状，称为潜水波，也是一种折射波
在这里插入图片描述

因为这是一个猜想，由于DL中缺乏可解释性，我们无法准确理解神经网络学习了什么以及如何学习。然而，U-net的中间层中的特征图的可视化在某种程度上反映了从编码器模块提取的低级特征和从解码器块提取的高级特征之间的差异。带 $[S, R, T]$ 格式输入的训练U-net的编码器和解码器块的单通道特征图如图2所示，每个模块有四个特征图。
在这里插入图片描述

图2 显示了U-net中间层特征图的可视化。每个模块由四个特征图组成，从左到右，分别来自编码器或解码器块一、二、三和四。

关于编码器块1和2的特征图，我们可以观察到它们的特征值的分布遵循与地震记录相似的模式。这是由于浅卷积层的非线性能力较弱，导致提取的特征图主要是地震记录的局部特征。在解码器块2和3的特征图中，我们注意到中心区域和外围区域之间的特征值有明显的区别。在编码器模块中没有观察到这种现象，这有力地证明了低级和高级特征之间的对比。

此外，解码器块3中的特征图的红圈区域内的特征值与解码器块4中的盐形特征图具有显著的相似性。这表明U-net在预测速度模型方面已经取得了重大进展，有效的速度相关特征集中在该区域。我们推测，这种极端分布是由裁剪操作引起的，以强制匹配特征图和速度模型的大小。相比之下，这也证实了即使解码器块3中的特征图包含大量冗余，可以直接裁剪。因此，这些冗余特征很可能也存在于前面的块中，其中它们的冗余度预计会更高。

因此，注意力门控（Oktay等人，2018）用于防止这些冗余和不相关的特征被跳过连接重复调用，重点关注与速度模型相关的特征。注意门的结构如图3所示。可以看出，注意门包含两个输入：特征图 $f$ 和特征图 $g$ ，特征图 $f$ 与数据域高度相关，由编码器块提取，特征图 $g$ 与模型域高度相关并由解码器块提取。在实现1×1卷积运算并通过批归一化（BN）层后，这两条路径的特征图被逐点求和。然后，将添加的特征图顺序馈送到激活函数ReLU（σ1）、卷积运算、BN层和激活函数sigmoid（σ2）中。利用Sigmoid得到注意系数 $\alpha \in [0,1]$ ；注意门的最终输出是特征 $f$ 与注意系数 $\alpha$ 的点对点乘法。注意门的过程表示如下：

$\begin{align}\left\{\begin{aligned} & \mathit{F} = \sigma_{1} [(\mathit{W}_f^{\mathit{T}} \times f+ b_f) + (\mathit{W}_g^{\mathit{T}} \times g+b_g) ] \\ & \alpha = \sigma_2(\mathit{W}_{\mathit{F}}^{\mathit{T}} \times \mathit{F} + b_{\mathit{F}}) \\ & \mathrm{output} = f \times \alpha \end{aligned}\right.\end{align} \tag{5}$
使用注意门，神经网络在训练过程中自动分析高级和低级特征之间的关系，将小系数分配给与速度模型无关的特征区域以抑制其激活，并将大系数分配给与速度模型高度相关的特征区域。
在这里插入图片描述

图3 注意力门的结构。特征图f由编码器块提取，特征图g由解码器块提取。

然而，损失函数的设计是DL中最基本和最关键的部分之一。预测速度模型和真实速度模型之间的均方误差（MSE）通常用于速度反演，由下式给出：
$\mathrm{MSE} (x,y) = \frac{1}{n} \sum^{n}_{i=1} (x_i - y_i)^2 \tag{7}$

由于地质等效性（补充：不同地质结构或地质过程在某种观测或测量手段下表现出相似或相同的特征），MSE可能存在一些问题；也就是说，不同的速度模型在相同的采集系统中可能具有相似甚至相同的观测值。在这种情况下，神经网络用相同的输入进行训练，但有多个可能的输出。MSE计算所有可能输出的平均值，因为平均值将导致训练过程中参数空间的全局最小值，从而导致结果模糊。此外，MSE计算速度模型的误差，结果仅与当前位置的两个速度值相关，与其他位置的速度值无关，这导致网络忽略了速度模型的局部构造信息，难以捕捉细节（Li等人，2019）。

结构相似性指数度量（SSIM）（Wang等人，2004）是一种广泛使用的图像质量评价指标，用于衡量两幅图像之间的结构相似性。SSIM定义如下：
$\mathrm{SSIM} = \frac{(2\mu_{x}\mu_{y} + C_1)(2\sigma_{xy} + C_2)}{(\mu^2_x+\mu^2_y+C_1)(\sigma^2_x+\mu^2_y+C_2)} \tag{8}$

其中， $\mu,\sigma^2$ 和 $\sigma$ 分别表示样本的均值、方差和协方差。这里，C1和C2是用于保持稳定性的常数。SSIM的范围从0到1，当x和y相同时，SSIM的值等于1。SSIM被视为MSE的正则化项，以减少MSE平均的影响。因此，本文中的损失函数定义为：
$\mathrm{Loss} = \frac{1}{n} \sum_{i=1}^n [\mathrm{MSE}(V_i,\hat{V}_i) + \alpha(1-\mathrm{SSIM}(V_i,\hat{V_i })] \tag{9}$
其中 $\hat{V}_i$ 和 $V_i$ 分别表示预测速度模型和真实速度模型。这里， $\alpha$ 是保持MSE和SSIM相对重要性的权重，在实验中 $\alpha$ 的初始值设置为5%。

DATA SET PREPARATION

DL的成功来自于模型和数据的结合。精心设计的数据集将极大地提高神经网络的准确性和泛化能力。期望数据驱动的反演方法与传统方法一样有效，无论地质条件如何。尽管如此，鉴于地质学的复杂性，构建这样一个数据集是一项极具挑战性的任务。此外，还没有公认的方法来生成有助于DL的数据集。本文生成并使用了两个数据集。数据集I来自Yang and Ma (2019)，由1500个合成速度模型组成。数据集II包含30000个速度模型，这些模型是使用著名的Marmousi模型（Brougois等人，1990）作为指导随机生成的。

数据集I用于消融实验，以验证改进的有效性。数据集中的速度模型与Yang和Ma（2019）中的模型具有相同的总体结构，但它们已经通过下采样进行了压缩，以适应MAU-net的输出大小。构建数据集II以验证MAU网络的泛化能力和鲁棒性。由于Marmousi模型在深度和宽度上明显大于MAU网络的模型大小，我们参考Kazei等人（2021）的方法，使用以下三个步骤构建数据集：（1）根据MAU-net的输出大小随机切片Marmousi模型；（2）使用图像领域常用的弹性图像变换方法旋转切片模型并拉伸旋转后的模型，这将扭曲一些层并创建一些新层；以及（3）在拉伸模型中添加15%的平滑速度扰动。图4和图5分别显示了数据集I和II中的一些地面真实速度模型和相应的初始模型。
在这里插入图片描述

图4（a）数据集I的地面真实速度模型和（b）数据集I中的相应初始速度模型。

在这里插入图片描述

图5（a）数据集II的地面真实速度模型和（b）数据集II中的相应初始速度模型。

我们使用有限差分法来生成地震记录。具体来说，我们使用20个炮和101个接收器，它们以2毫秒的时间间隔均匀地部署在地面上。所使用的Ricker小波的主频为25Hz。为了获得初始速度模型，我们对速度模型应用高斯平滑函数。这些平滑模型也被用作后续比较实验中FWI的初始模型。此外，我们使用映射技术来标准化数据集的振幅，这涉及将振幅重新缩放到[0,1]的范围。该过程包括识别每个地震剖面内的最大和最小振幅，并随后相应地调整整个数据集的振幅。通过实施此映射过程，我们确保数据的振幅在归一化范围内均匀分布，从而促进整个数据集的一致性。

在其他领域，数据集通常按6:2:2的比例分为训练集、验证集和测试集。然而，由于反演任务的复杂性和样本的稀缺性，训练过程中经常出现过拟合问题。因此，数据集I以8:1:1的比例随机分为训练集、验证集和测试集，所有这些数据集彼此独立。数据集II以8:2的比例随机分为训练集和验证集，使用Marmousi模型作为测试集。训练集用于训练神经网络并学习输入到输出的映射关系，而验证集和测试集不参与训练。验证集用于监测神经网络的状态和收敛性，并根据验证集中神经网络的性能调整超参数。在训练结束时使用测试集来评估神经网络的泛化能力。

EXPERIMENTS AND RESULTS

在实验中，基线和消融使用相同的代码库运行。Adam优化器用于在NVIDIA图形处理单元（GPU）上训练神经网络（数据集I在3090上，数据集II在4090上）。为了评估预测速度模型的质量，使用MSE和SSIM度量来比较预测速度模型和真实速度模型之间的差异。SSIM基于局部结构的相似性来评估模型，MSE通过全局计算来评估模型。这两个指标结合使用，可以对预测的速度模型进行全面评估。

Ablation experiments

在本节中，我们对不同的修改进行了全面的消融研究，以验证改进的重要性和所提出模块的优越性。为了分析和理解每次修改对神经网络的影响，我们精心控制消融实验的变量。除了消融的修改部分外，每个网络都有相同的实验设置、超参数、训练策略和神经网络结构。

在这里，我们通过添加或减去图1中实验MAU网络的额外模块来评估基线U-net、U-net+AG（Oktay等人，2018）、U-net+AG+FM、U-net+GG+FM+RD和U-net+AG+FM+RD+MB的性能。值得注意的是，RD会改变神经网络的输入大小，因此我们对FM中的卷积步长进行了微调，以匹配神经网络的输出大小。添加RD前后特征提取模块的结构差异如表1所示。可以看出，没有RD的FM会产生与速度模型大小相同的最终特征图。这在理论上更好，因为它消除了裁剪操作的需要，而裁剪操作可能会导致有效特征的丢失。

表1 有和没有RD的FM之间的结构差异。

在这里插入图片描述

注：Conv表示卷积核的大小，channels表示卷积层中的通道数，stride表示卷积核步长，padding表示填充操作。

对于训练，所有网络的学习率都设置为 $2\times 10^{-4}$ ，批量大小为15。需要注意的是，不同网络的超参数自适应可能存在差异，因此超参数的设置并不完全公平。在使用数据集I中的训练集训练神经网络100个迭代周期后（大约需要一个小时），保存了验证集上性能最佳的参数。随后，使用测试数据集评估了五个神经网络的性能。为了减轻对实验结果的随机影响，采用了五次运行的平均度量值。训练和测试数据集的SSIM和MSE指标的统计结果如表2所示。

表2 消融实验结果。

在这里插入图片描述

注：SSIM度量越大越好；MSE和L2度量越小越好。粗体表示与最佳性能相对应的神经网络。AGs、FM、RD和MB分别表示注意门、特征提取模块、地震数据提取和多分支。

表2显示，所有附加模块在不同程度上提高了U-net的性能，同时只增加了最小的参数。具体来说，U-net在纳入AG后，所有模型评估指标都有所改善，突显了注意机制在解决倒置问题中的关键作用。FM增强了神经网络的泛化能力，尽管代价是增加了训练难度，这可能是由于FM引入了更深的网络层。RD的利用显著提高了神经网络在训练和测试数据集上的性能。尽管RD是地震数据的简单变形，但它对神经网络做出了值得注意的贡献。MAU-net将上述改进与来自模型分支的先验信息相结合，使其优于所有其他模型，并在所有指标上与基线U-net相比表现出巨大的性能改进。

为了对绩效进行全面评估，我们将评估范围扩展到仅从模型角度比较绩效之外。我们还考虑了从不同反演结果中获得的数据不匹配。由于数据驱动反演方法不依赖于迭代过程，我们使用每个神经网络的模型预测来计算模拟地震数据。然后，我们测量预测地震数据和实际地震数据之间的L2范数，以量化数据误差。为了获得统计见解，我们从训练集和测试集中随机选择了100个样本。使用所述方法，我们计算了各种模型的数据误差，统计平均L2误差如表2所示。数据不匹配的结果再次证实了每项改进的有效性，并显著提高了网络的性能。

此外，我们使用具有相同超参数设置的MSE损失函数对MAU网络模型进行了重新训练。然后，我们使用前面的方法和数据计算了模型和数据度量的误差。在表3中，我们比较了用MSE+SSIM损失函数组合训练的网络和仅用MSE损失函数训练的网络。综合损失函数显示，训练集的MSE、SSIM和L2指标有了显著改善，分别从0.001112、0.94185和0.00023降至0.00093、0.96176和0.00016。同样，测试集的MSE、SSIM和L2指标也有所改善，分别从0.00343、0.90547和0.00149提高到0.00321、0.91148和0.00092。这些发现为联合损失函数的有效性和优越性提供了强有力的证据。

表3 MSE损失函数和我们使用的损失函数的性能。

在这里插入图片描述

注：粗体值表示比较中的最佳结果。

最后，基于上述消融实验的结果，我们对MAU网络和高性能双边反演网络（BiInNet）（Cao等人，2021）反演模型进行了比较分析。BiInNet模型使用ResNet18作为其骨干，根据参考研究，ResNet18显示出卓越的性能。值得注意的是，由于数据集格式的差异，我们不得不对BiInNet网络进行一些微调，以适应我们的数据集，主要侧重于卷积层信道的配置。

在训练阶段，我们尝试了五组不同的超参数，包括我们通过自己的测试和参考文章中获得的最优超参数。我们的测试表明，当使用5×10−4的学习率和10的批量时，BiInNet在测试集上取得了最佳性能。试验装置的性能值如表4所示。尽管承认这种比较并不完全公平，但对表4中给出的结果进行检查，比较U-net、BiInNet和我们提出的MAU-net，从模型失配的角度突出了MAU-net在MSE和SSIM指标方面的优势，从数据失配的视角突出了L2范数的优势。
在这里插入图片描述

Visualization results

在本节中，我们通过直观地将其反演结果与FWI的反演结果进行比较，进一步验证了MAU-net网络的性能。MAU-net和FWI需要地震记录和初始速度模型作为输入。在我们的实验中，我们进行了两次FWI：一次使用与MAU-net相同的初始速度模型，另一次使用MAU-net的反演结果作为初始速度模型（FWI+MAU-net）。

FWI观测系统由均匀对称放置的20个源和表面上的101个接收器组成。每个源的间隔为50米，而每个接收器的间隔为10米。使用全频带共轭梯度优化进行200次迭代后，FWI的反演结果如图6d和6j所示，FWI+AMU-net网络的反演结果见图6e和6k，MAU-net网络的反演成果见图6c和6i。

在这里插入图片描述

图6 MAU网、FWI和MAU网+FWI反演结果的比较。（a和g）真实速度模型，（b和h）MAU网和FWI输入的初始速度模型。

MAU-net网的反演结果（图6c和6i）总体表现良好，在模型的中心区域获得了高精度的盐体，相邻层之间的界面清晰。然而，MAU-net网络并不能很好地恢复相邻界面的不平滑区域，像素级的密集预测仍然是MAU-net网络面临的挑战。对于FWI，很难收敛，使用这个初始模型几乎无法获得视觉改善（图6d和6j）。在图6e和6k中，FWI和MAU-net网络组合的反演结果获得了最高的精度，并与真实速度模型最匹配。图6f和6l进一步绘制了模型中心的水平速度剖面。观察到从MAU-net网络和FWI+MAU-net网络反演结果获得的速度剖面与实际速度剖面非常吻合。

由于MAU-net网络需要像FWI这样的初始模型，我们担心初始模型的质量对MAU-net网络的影响。我们使用标准偏差为1、3、5、7和9的高斯滤波函数作为高斯核，分别对真实速度模型进行模糊运算。高斯核的偏差越大，模糊后初始模型的质量就越差。实际速度模型和平滑速度结果如图7所示。然后，将带有不同初始模型的相同地震记录顺序输入MAU-net网络进行反演，反演结果如图8所示。

在这里插入图片描述

图7 验证初始模型质量对MAU网络的影响。（a）真实速度模型和利用高斯函数得到的（b–f）初始速度模型。从（b到f）使用的高斯核的标准差依次为1、3、5、7和9。

在图8中，我们可以观察到，使用最高质量的初始速度模型获得的反演结果（图8a）具有对不同层界面的最清晰描述。此外，我们发现，尽管初始速度模型的质量不断下降，但在比较图8b-8e中的反演结果时，几乎没有视觉变化，正如模型中心进一步绘制的速度剖面图（图8f）所示。这表明，尽管初始速度模型的质量可能会影响MAU-net网络的预测结果，但与FWI相比，MAU-net网络对初始模型的鲁棒性要高得多，这可能是由于训练中使用的初始速度模型质量较低。这是因为MAU-net网络从数据域和模型域中提取有效信息进行反演。模型域中的数据质量越高，训练期间模型域中MAU网络的信任度就越高，预测期间模型域对MAU-net网络影响越大；相比之下，模型域中的数据质量越低，模型域对MAU-net网络的影响就越弱。

在这里插入图片描述

图8（a–e）分别对应于图7b–7f所示初始速度模型的反演结果，以及（f）反演结果和真实模型水平中心的速度深度剖面。

Generalization and robustness experiments

在本节中，我们使用Marmousi模型进一步测试MAU网络在复杂地质情况下的泛化能力。我们还评估了它对噪声干扰和低频干扰的鲁棒性。首先，我们使用数据集II重新训练神经网络。训练学习率设置为3×10−4，批量大小为30。为了提高神经网络的稳定性并防止过拟合，我们使用预热技巧将学习率逐渐提高到计划值。具体来说，我们在实验中实施了多步衰减加预热学习率策略。首先，学习率在区间[0,10]内从预定值的10%均匀增加，在10个周期内逐渐达到预设值。之后，学习率在区间[10,100]内保持恒定。在这个时期之后，学习率在特定的时期（即[100,150,200,300]）经历衰减，相应的衰减学习率为[3×10−4,1×10−4,4×10−5,1×10–5]。神经网络的训练需要30多个小时，总共500个迭代周期。训练数据集和测试数据集的损失曲线如图9所示。
在这里插入图片描述

图9 MAU-net损失曲线。橙色是训练数据集，蓝色是测试数据集。

训练后，我们从Marmousi模型中截取部分速度模型，并对其进行裁剪，以匹配MAU-net网络的输出大小。图10显示了MAU-net网的裁剪真实速度模型和初始速度模型。然后，就像我们构建数据集的方式一样，通过有限差分法生成符合MAU-net网络格式的输入。最后，使用MAU-net网络预测输入的结果，并按照裁剪操作前的顺序将预测结果组合在一起。这种将速度模型裁剪成多个部分进行反演的方法对于FWI来说是不可行的。然而，只要输入和输出之间存在映射关系，深度神经网络就可以作为一种通用的拟合函数，在有大量训练数据支持的情况下，允许预测与其输入范式一致的结果。

在这里插入图片描述

图10 （a）真实速度模型和（b）MAU网络的初始速度模型。

从图11a中可以看出，从Marmousi模型中可以很好地预测MAU网络。对于断层和错位区域，MAU网可以很好地雕刻它们。然而，MAU网络的预测在准确性方面仍然存在问题。为了进一步提高模型的准确性，我们进行了FWI，并使用共轭梯度优化对MAU网络的预测结果进行了300次迭代优化，最终的反演结果如图11b所示。我们在图12中进一步绘制了模型在水平800米、1600米和2400米处的深度-速度曲线，以供比较。在这里，蓝色和橙色曲线分别表示真实和初始速度剖面。
在这里插入图片描述

图11（a） MAU网和FWI初始速度模型的预测结果；（b） FWI+MAU网反演结果。

在这里插入图片描述

图12（a–c）图11分别显示了反演结果中800m、1600m和2400m处的速度-深度曲线。

绿色曲线表示MAU网的预测速度剖面，并作为FWI的初始速度剖面。红色曲线表示FWI的反演速度剖面。MAU网络预测的速度剖面趋势与真实速度剖面的趋势一致，准确反映了大多数模型特征。然而，不同层的速度值与真实速度值之间仍存在一些不匹配。此外，MAU网络的预测结果在浅层和低速区域通常与真实模型更匹配，而在深层和高速区域的预测结果相对不准确。在每种情况下，FWI都可以进一步优化MAU网络的预测结果，实现与真实速度曲线的最佳拟合。此外，无论模型的复杂性如何，MAU网络只需要不到1秒的时间进行预测，而FWI通常需要几个小时。

此外，考虑到实际收集的数据经常遇到噪声干扰和低频数据缺失，我们测试了MAU网络在地震数据较差的情况下的鲁棒性。使用高通滤波器去除Ricker小波的0-4Hz部分。随后，使用处理后的小波来合成地震记录。然后，我们将平均信噪比（S/N）为6的70%随机噪声和30%相干噪声添加到合成地震记录中。理想地震记录和低频和噪声干扰的不良地震记录如图13所示。

在这里插入图片描述

图13（a）理想的地震记录和（b）没有0-4Hz（S/N=6）的不良地震记录。

使用相同的初始速度模型，图13中的理想和不良地震记录分别被输入MAU网络进行预测。比较图14b和14c中的预测结果，它们几乎完全相同，并成功预测了模型的大部分独特特征。此外，在图14d中绘制预测模型水平中心的速度-深度曲线时，可以观察到，使用不良地震记录预测的红色曲线与使用浅层理想地震记录预测出的绿色曲线非常相似。然而，在更深的部分，与绿色曲线的失配相比，红色曲线和地面真值曲线之间的失配略大。

在这里插入图片描述

图14（a）真实速度模型，（b）使用不良地震记录的预测结果，（c）使用理想地震记录的预报结果，以及（d）模型水平中心的速度深度剖面。

接下来，我们验证了MAU网络对微小扰动的敏感性。具体来说，我们选择Marmousi模型的一部分，在大约200米的层上施加50米/秒的匀速扰动。将施加扰动后的速度-深度曲线与扰动前的曲线进行比较，如图15c所示。值得注意的是，这种扰动非常小，MAU网络使用的平滑初始模型在扰动前后保持不变（图15b）。与之前的实验类似，使用训练好的MAU网络进行反演，相关反演结果如图16所示。鉴于所施加扰动的极弱性质，图16a和16b中的反演结果几乎没有视觉差异。为了更准确地比较差异，我们在图16c中进一步绘制了速度-深度曲线，在200米的深度可以观察到偏差。这一发现表明，即使使用相同的初始速度模型，MAU网络也能够根据地震数据的变化检测模型中的细微差异。

在这里插入图片描述

图15 小扰动的灵敏度实验。（a）真实模型、（b）初始模型和（c）模型水平中心的速度深度剖面。

在这里插入图片描述

图16 敏感性实验的结果。（a）无扰动，（b）有扰动，（c）模型水平中心的速度-深度剖面。

随后，我们使用扰动的Marmousi模型进一步测试了MAU网络的性能。在操作上，我们从Marmousi模型中随机裁剪出与MAU输入范式大小相匹配的局部区域。然后，我们添加一个标准偏差为200的速度扰动，并符合高斯分布。最终的扰动速度模型如图17b所示。之后，我们平滑了扰动的Marmousi模型，并将其用作约束MAU网络的初始模型。MAU网络的参数保持不变，输入数据照常处理。MAU网在扰动速度模型上的反演结果如图17d所示。
在这里插入图片描述

图17 扰动模型结果（a）原始裁剪的Marmousi模型，（b）扰动的Marmousi模型，（c）MAU网络的初始模型，以及（d）MAU网的反演结果。

观察图17b中的扰动模型和图17d中的反演结果，可以观察到MAU-net对扰动模型中间的层信息有清晰的反演，但左上和右下部分的高速区域存在失真和模糊，以及反演模型中密集的随机扰动点存在困难。与之前的实验一样，比较图18中绘制的速度-深度曲线（从反演结果中获得的红线和扰动模型的橙线），可以观察到模型较深区域的误差大于较浅区域的误差。很明显，在模型中包含随机扰动对MAU网络构成了重大挑战，因为训练数据集中缺少层间具有这种速度不连续性的样本。比较原始模型和扰动模型的速度与深度曲线（蓝线和橙线），可以看出随机扰动也大大增加了模型的复杂性。然而，MAU网络仍然保持了一定的泛化性能，并很好地捕获了模型中心区域的层信息。

在这里插入图片描述

图18 与图17相对应的扰动实验的深度与速度剖面。（a）水平300m处的剖面，（b）水平中心处的剖面和（c）水平700m处的剖面。

基于Marmousi模型实验的有希望的结果，我们的研究扩展到使用2004年BP模型探索MAU网络的泛化能力（Billette和Brandsberg-Dahl，2005）。在这里，我们使用数据集I对MAU网络进行再训练，学习率为1×10−5，持续50轮，因为BP模型存在大量高速盐体区域，而这些区域在数据集II中缺乏特征。图19a展示了通过裁剪原始模型并随后对压缩进行降采样而获得的真实速度模型。图19b表示通过图19a的平滑得到的MAU网络的先验模型。对于输入，使用与Marmousi实验相同的正射校正参数的合成地震数据。图19c显示了MAU网获得的反演结果，而图20显示了与图19a-19c相对应的深度与速度剖面。

在这里插入图片描述

图19 使用2004年BP模型进行泛化实验。（a）真实速度模型，（b）初始速度模型，以及（c）MAU网络的反演结果。

在这里插入图片描述

图20 深度与速度剖面图，如图19所示。（a）水平200米处的剖面，（b）水平中心处的剖面和（c）水平800米处的轮廓。

很明显，MAU网络能够很好地捕获浅层的速度信息，成功地恢复了左右盐体的精确速度细节和配置。此外，它准确地检索了左盐体下方低速区的信息。然而，重要的是要注意，左盐体反演的程度显示出一些清晰度问题，模型中段和深层的某些速度异常仍然不清楚。然而，反演结果可以被认为是FWI的可靠和准确的初始模型。通过进一步优化，可以解决这些已识别的问题，从而提高反演结果的准确性。

Field data test

通用性问题是数据驱动方法面临的一个常见挑战。在反演领域，由于问题的固有复杂性，这一挑战尤为突出。当训练好的网络直接应用于实地地区的新观测系统和数据集时，结果往往低于预期。幸运的是，受过训练的网络往往能获得通用知识。为了缓解泛化问题，我们建议使用迁移学习策略，使用一小部分新注释的数据对训练好的网络进行微调。这个过程只需要微调一小部分网络参数，而大多数参数保持不变。在我们的实验中，我们保持模型分支的所有层和数据分支的大多数层都是固定的，除了FN模块和最后一层。随后，出于测试目的，我们使用现场数据评估了MAU网络的性能。

本研究中使用的实验现场数据是从中国一个地点的现场地面勘探数据中获得的。鉴于现场数据中存在的高噪声水平，我们应用了半径为两条迹线的倾角中值滤波器来提高数据质量。数据集包括每条轨迹1500个采样点，采样间隔为4毫秒。总共获得了700个公共中点（CMP）道集。此外，由于数据格式的限制，我们对现场数据进行了下采样，并对相邻迹线集进行了分割，使其与MAU网络的输入兼容。使用专门的商业软件以50 CMP的间隔收集速度-时间数据对，然后将其转换为深度域速度模型，作为MAU网络的标签。由于数据量的限制，为整个现场数据生成了四对数据。从这些配对中，我们随机选择了两对，通过迁移学习来微调我们的模型，而剩下的配对则用于测试。图21和22显示了字段数据及其相应的标签。
在这里插入图片描述

图21 部分现场数据

在这里插入图片描述

图22 现场模型（a）真实模型和（b）初始模型

图23显示了MAU网络在经历迁移学习前后使用现场数据获得的反演结果的比较。由于观测系统、数据格式和合成数据与现场数据之间的地质特征存在显著差异，未通过迁移学习进行微调的神经网络无法充分适应现场数据。因此，这导致了高度不稳定和不可靠的反演结果（图23a和23b）。图23c和23d显示了MAU网络进行迁移学习的结果。很明显，通过对模拟数据集进行训练获得的知识是可靠和通用的。经过微调，MAU网络在现场数据上的性能显著提高，从而产生了高度精确的地下结构。图24a和24b提供了实施迁移学习前后6.5公里水平距离处的速度-深度剖面的比较。很明显，经过微调的速度深度剖面与真实模型的速度深度轮廓非常相似，几乎完全相同。这些实验证实了MAU网络在现场环境中的可靠性和适用性，并通过使用迁移学习技术得到了进一步的增强。

在这里插入图片描述

图23 现场数据实验结果（a和b）没有微调的MAU净反演结果，（c和d）有微调的MAN净反演结果

在这里插入图片描述

图24 现场模型水平中心的速度深度剖面（a）对应于图23a和23c的轮廓和（b）对应于图23b和23d的轮廓。

此外，我们在表5中提供了与网络训练、网络微调、FWI优化和模型推理相关的时间开销的全面细分。此外，基于训练持续时间和整个训练阶段迭代的样本总数，计算了MAU网络和FWI反演的训练吞吐量。应当注意，这些值是近似估计值，因为某些数据处理任务也在训练过程中执行（例如，初始模型和评估）。很明显，迁移学习技术促进的微调过程需要相对较少的样本数据和计算资源。这一结果强调了这种方法在现实应用中的实用性。

表5 实验的计算成本分析

在这里插入图片描述

Data set sensitivity experiments

DL方法与训练数据集的质量和大小密切相关。通常，DL模型的有效性随着训练数据集大小的增加而呈上升趋势。尽管如此，必须保持微妙的平衡，因为模型参数与可用数据量之间的不匹配可能会导致问题。在数据稀缺的情况下，模型无法得到充分的训练，导致模型在训练过程中暴露的有限信息过拟合，这降低了模型对测试数据的有效性，削弱了模型的泛化能力。相比之下，当面对大量数据并使用过于简单的模型时，该模型无法有效地使用数据，从而导致性能不达标和拟合不足。

在特定的问题和模型领域，模型性能和训练集大小之间的关系仍然难以捉摸，如果不是不存在的话。然而，如果这种关系确实存在，那么关于数据集大小和模型性能的敏感性分析可以提供有价值的见解。这种分析可以帮助优化模型训练，减少数据集支出，有效解决过拟合和欠拟合的双重挑战，并最终促进性能的提高。因此，本节专门讨论这个问题，尽管本文的重点不是数据集。在操作上，我们通过从数据集II中提取不同数量的样本来生成各种大小的训练数据集，包括[1000、5000、10000、15000、20000、25000、30000]大小。Marmousi模型被用作测试集来评估MAU网络的性能。为了防止过拟合，我们在训练中使用了一种早期停止策略来识别和保存MAU网络表现最佳的参数。

在训练阶段结束时，我们使用MSE和SSIM指标来衡量训练后的MAU网络在测试集上的性能。三个实验统计的平均结果如图25所示。观察到，随着数据集的大小从1000个样本增加到10000个样本，模型的性能得到了提高，与5000到10000个采样相比，从1000到5000个样本的改进更大。然而，当数据集大小达到15000个样本时，观察到一个有趣的现象；此时MAU-net的性能出乎意料地比10000大小的性能稍差。数据集大小为20000，MAU网络的性能得到了一定的补偿。数据集进一步扩展到25000个样本，根据MSE指标，MAU网络的性能呈下降趋势，而SSIM指标则略有改善。总体而言，MSE和SSIM指标表明，一旦数据集大小达到约10000，较大的数据集对提高模型性能的影响有限。
在这里插入图片描述

图25 数据集大小对模型性能的影响（a） MSE度量和（b）SSIM度量。

这一结果引起了相当大的争议。传统上，DL模型的性能随着训练数据量的扩展呈对数增长。值得注意的是，即使在庞大的数据集上进行训练，也经常观察到这种性能的上升轨迹，记录了训练数据包含多达3亿个样本的实例（Sun等人，2017）。然而，在反演方面，学术研究表明，增加数据集的规模对DL模型的性能影响有限（Sun等人，2021）。值得强调的是，尽管代表复杂性的模型参数应该足够大，以充分利用大型数据集的全部潜力，但一般的期望是，即使模型参数较少，模型性能也不应随着数据量的增加而恶化。

一种推测是，观察到的现象可能源于现有数据集的构建方式。具体来说，数据集构建中使用的操作，包括裁剪、旋转、弹性变形和添加扰动等动作，本质上是数据增强技术。重要的是要承认，通过数据增强生成的样本遵循相同的基本原则，并与原始样本保持很强的相关性。随着增强样本数量的增加，数据集的多样性逐渐达到临界点。超过临界点的样本对模型性能几乎没有改善，甚至可能导致训练集样本分布偏离测试集样本分布。这种偏差反过来又会对模型的性能产生负面影响。

DISCUSSION

近年来，DL在各个领域都呈现出蓬勃发展的势头，为地球物理技术带来了新的活力，为解决与传统反演方法相关的一些难题提供了希望。DL技术不需要了解问题的内部机制；他们需要大量的标记数据对来学习输入和输出之间的映射关系。DL的成功依赖于模型和数据，在反演问题领域需要进一步的研究。

关于数据，没有研究表明如何构建一个数据集来增强网络的泛化边界。通常的方法是选择更复杂的模型和更多的数据来获得更好的结果。然而，在反演领域，使用数据增强构建数据集可能会出现问题。目前，通过结合测井数据等先验地质信息或使用迁移学习技术，似乎可以部分克服网络泛化的挑战。

在模型方面，与反演目标域相比，地震数据的维数要高得多，这带来了一个问题。在压缩数据维度的连续卷积操作中，只保留了相邻道集的最主要特征，这不利于需要密集像素级预测的反演任务。此外，实际应用中的数据驱动方法还有其他需要解决的问题。

数据驱动的直接反演无疑是一项具有挑战性但前景广阔的任务，目前仍处于研究的早期阶段。在实际应用之前还有很长的路要走。我们已经对基线U-net实施了几项有效且易于实施的改进，这些改进可以应用于依赖U-net和CNN网络的各种结构。这些增强并不完美，旨在作为数据驱动反演方法中遇到的问题的初步解决方案。

补充：在反演领域，使用数据增强构建数据集时，可能会遇到以下几个主要问题：

数据增强方法不适用于特定问题
问题特异性： 不是所有的数据增强方法都适用于反演问题。反演问题通常涉及从观测数据中恢复或推断出隐藏的物理量或参数，这些物理量或参数可能具有特定的物理约束或规律。如果数据增强方法没有考虑到这些约束或规律，可能会生成不符合物理实际的数据，从而影响模型的训练效果和反演结果的准确性。
数据增强导致的数据分布变化
分布偏移： 数据增强可能会改变原始数据的分布特性，特别是当增强方法过于激进或没有充分考虑到数据的内在结构时。这种分布偏移可能导致模型在训练集上表现良好，但在测试集或实际应用中表现不佳，即所谓的“过拟合”现象。
信息熵增加：数据增强可能会增加数据的不确定性，即输出空间Y的分布的信息熵增大。这要求模型学习更多的信息或规律来消除这种不确定性，从而增加了分类任务的固有难度。在反演问题中，这可能导致模型需要更多的训练数据和更复杂的模型结构来准确反演隐藏的物理量或参数。
数据增强过程中的噪声引入
噪声干扰： 在数据增强的过程中，可能会不可避免地引入噪声或干扰因素。这些噪声或干扰因素可能会掩盖原始数据中的有用信息，或者误导模型的学习过程。在反演问题中，噪声的引入可能导致反演结果的不稳定或误差增大。
数据增强与模型不匹配
模型适应性： 不同的数据增强方法可能对模型的适应性有不同的影响。如果数据增强方法与所选的模型不匹配，可能会导致模型无法充分利用增强后的数据，或者无法从增强后的数据中学习到有效的特征表示。这会影响模型的训练效果和反演结果的准确性。
数据增强过程中的计算资源消耗
计算成本： 数据增强通常需要消耗大量的计算资源，特别是在处理大规模数据集时。如果数据增强的计算成本过高，可能会限制其在反演领域的应用范围。此外，数据增强的效果也需要通过大量的实验和验证来评估，这也会增加研究的时间和成本。

CONCLUSION

提出了一种增强的U-net，称为MAU-net，用于速度反演。MAU网络采用多分支结构，有效地从地震记录和初始速度模型中捕获有价值的信息。此外，MAU-net在提取的特征和速度模型之间建立了更明确的对应关系。为了防止重复激活数据域中的低级特征和模型域中的冗余特征，我们使用了特征提取模块和注意门。这些组件优化了跳过连接的利用率。消融实验结果证实了这些增强的有效性，并突出了MAU-net的优越性。在Marmousi模型中证明了MAU-net的泛化能力，以及其对噪声干扰和低频干扰的弹性。此外，MAU-net成功地处理了2004年的BP模型，并生成了合理的预测，可以作为FWI的准确初始模型。通过使用迁移学习技术，MAU-net有效地处理了现场数据，并提供了准确的反演结果。