文章目录
地震反演基础知识1
1. 基础知识
1.1 正演反演
- 正演
根据地下介质的参数, 运用物理方程和数值计算方法, 模拟真实地震波传播过程并得到合成地震记录的过程. 正演问题是建立从速度模型到地震数据的映射.一般认为是单解的, 即一个速度模型只能生成一个地震数据 - 反演
反演是正演的逆过程: 即通过地层图模拟地震波形.反演问题是建立从地震数据到速度模型的映射. 一般认为是多解的, 即一个地震数据可能对应于多个速度模型.
1.2 地震数据
地震数据是在地震事件中收集的地震波信号。当地震发生时,地下的岩石和介质会产生地震波,这些地震波会传播到地表和地下,并通过地震仪器记录下来。
在位置A触发振动源, 所有接收器都会陆续接收到波信号, 这些信号可以绘制出炮面图A,
移动振动源到位置B, C触发振动源, 同理我们会得到炮面图B, C。振动源动而接收器没动, 故这些炮面图是互不同的.放S个炮就可以得到S个炮面图, 我们将他们”捆”在一起, 成为一个”S-通道的图集”.炮面图的宽度 = 接收器个数, 高度 = 采样时长
1.3 速度模型
速度模型它描述了地下介质中声波(或地震波)传播的速度分布情况
通常将地下结构称之为”速度模型”, 因为如图中的每个像素点其实表示的是波在这个介质中传播的速度
1.4 道
道在计算机中的解释: 地震图像中的任意一个纵向的向量, 如果这个图像宽R, 那么它最多就有R个道. 如果这个图像高T, 那么每个道的长度都是T, 维度为 (T x 1).
1.5 FWI的端到端深度学习
用已知的”地震数据”和”速度模型”来训练一个模型,然后通过将新的”地震数据”喂入这个模型中, 从而预测其”速度模型”, 从而推测地下构造.
- 我们需要准备已知的地震数据和真实的地下介质模型(速度模型等)作为训练集。
- 设计一个深度神经网络模型(如CNN),其输入为地震数据,输出为预测的速度模型并与真实的速度模型(作为标签)进行比较,不断迭代优化这个模型.(可以理解为训练过程)
- 当有新的地震数据,直接输入已经训练好的学习模型中,模型直接输出相应的速度模型进而去推测地下构造
注: 在机器学习中,端到端方法是直接从原始数据开始,自动地从输入数据中学习并提取有用的特征,并最终产生所需的输出结果,中间不需要人工设计特征或额外的处理步骤.
1.6 传统FWI vs. DL-FWI
- 传统的FWI
它使用声波方程或弹性波方程等波动方程来模拟地震波在地下介质中的传播过程.大致过程: 根据一个初始的简化模型,使用声波或弹性波方程等进行正演模拟,得到模拟的地震波场数据(预测数据), 将观测的地震数据与模拟的地震数据之间的差异作为目标函数, 使用优化算法(如梯度下降法)调整模型参数,使目标函数最小化,从而实现模拟数据与观测数据的匹配. 在这个过程中会通过多次迭代反演优化, 时间开销是巨大的, 而且依赖于初始解, - DL-FWI
DL-FWI(Deep Learning Full Waveform Inversion)是一种使用深度学习技术改进FWI的方法。通过神经网络进行自主学习,自动提取特征。
DL-FWI在训练阶段需要更多时间, 而实际预测花费的时间很少, 只需要几秒钟. 一旦建立了良好的通用网络, 那么就可以大大地减少FWI计算时间;神经网络可以自然地将空间相关性作为正则化引入生成速度模型, 这样可以抑制梯度中的噪声并减轻局部最小.
注:机器学习中的正则化是为了防止过拟合
2. 数据信息
2.1 数据集的层级关系
数据集本身是由若干个 {地震数据-速度模型} 构成的数据对, 任何一个地震数据必然有其对应的速度模型, 反之亦然
2.2 SEG盐体数据
-
SEG盐体真实数据
SEG盐体数据用于研究和评估地下盐体构造的成像和探测方法。地震波在地下传播时,会与盐体发生反射、折射等现象,这些地震波数据可以用于分析和成像地下盐体的结构和分布.
SEG盐体数据描述了一个大约2km×3km的地下二维剖面区域,如下图:(其中黄色为盐体)
采样后, 地下的像素区域大小为201×301. 波在这个地下区域的传播速度为1500m/s~4482m/s.(由图像知道波在盐体中的传播速度是很快的)
这个SEG盐数据集是现实地下盐层三维分析数据通过剖面切片获得的, 一共获得了140个切面数据.) -
SEG盐体模拟数据
真实数据很少,同时我们DL-FWI需要大量的数据去训练,故还需要通过合成一些同SEG盐数据类似分布的模拟数据来进行预训练, 作为网络背景。每幅图像都有不同宽度的层,从大约 5 到 12 层不等. 为了精确模仿盐体, 每个速度模型在中间或底部随机嵌入了随机形状的盐体. 同时,模拟数据的地层速度波动也控制在2000km/s~4500km/s. -
地震波数据采集参数:
- Grid spacing(网格间距): 地下模型离散化时的网格间距为10米.
- Source frequency: 震源的频率为25赫兹
- Source spacing(震源间距): 在水平方向上,相邻震源之间的距离为103.45米
- Source numbers(震源数量): 表示在采集地震数据时,使用了29个震源同时激发地震波
- Receiver spacing(接收器间距): 在地面或浅部放置了接收器,相邻接收器之间的距离为10米
- Receiver numbers(接收器数量): 在采集地震数据时,使用了301个接收器记录地震波
- Time Spacing(时间采样间隔): 地震波数据每隔0.001秒记录一次
103.45
∗
29
≈
3000
103.45 * 29 ≈ 3000
103.45∗29≈3000: 震源间距乘以震源数量, 可表示地震源所覆盖的水平距离为约3000m
10
∗
301
=
3010
10 * 301 = 3010
10∗301=3010: 接收器间距乘以接收器数量,可表示地面放置的接收器所覆盖的水平距离为约3010m
SEG盐数据的正演波形图
SEG盐数据的模拟数据的正演波形图
真实模型的构造更复杂, 在范围内出现了更多的反射波
2.3 OpenFWI数据集
包含了12 个根据不同先验合成的数据集(又可以分为4类), 其中包括一个 3D 数据集.(都是模拟数据)
- Vel类
- FlatVel-A: 简单的平面图层 (一般是具有平坦的几何形状在垂直方向上没有显著的变化和均匀性质的地层)
- FlatVel-B: FlatVel-A的复杂版本
- CurveVel-A: 简单的曲面层 (一般具有具有曲面形状在垂直方向上有变化,形成曲线或曲面和非均匀性质的地层)
- CurveVel-B:CurveVel-A的复杂版本
- Fault类
- FlatFault-A: 带有一个断层的平面层,断层表示地下地层中的断裂面(存在一个断层且其附近存在相对平坦的地层)
- FlatFault-B: 复杂的FlatFault-A
- CurveFault-A: 带有一个断层的曲面层
- CurveFault-B: 复杂的CurveFault-B
- Style类
- Style-A: 通过自然图像数据合成而来
- Style-B: 复杂的Style-A
- Kimberlina类.
- Kimberlina-CO2 : 模拟二氧化碳(CO2)泄漏储层得到(模拟二氧化碳地下封存和储存过程中可能出现的泄漏情况的地下层)
- 3D Kimberlina-V1: 3D数据集
3. 我的疑问
- DL-FWI是利用深度学习去进行地震反演,在学习过程需要大量高质量的数据,但开源的大部分是模拟的数据集,获取真实数据很困难吗?(我想得是 正演反演互为逆过程,那既然正演发展很成熟,那数据应该是足够多的)
- 我们研究DL-FWI,目的就是为了去训练更好的机器学习模型吗?如果是,我们今后的研究方向是不是就是为了去训练更好的机器学习模型?