摘要: DL-FWI 与基于正演模拟的 NS-FWI 处于不同的赛道, 因此核心问题 (关键科学问题) 完全不同.
1. DL-FWI 的优缺点
- 优点:
- 主要优点:预测速度非常快;
- 次要优点:不需要初始速度模型。
- 缺点:
- 主要缺点:需要大量的数据进行训练;
- 次要缺点:反演效果不一定很好,但做为初始速度模型应该够了。
2. 深度模型的拟合能力与泛化能力
机器学习模型通常可以写为
y
=
f
(
x
)
y = f(x)
y=f(x)
的形式。深度网络通常可以写为
y
=
f
(
x
;
Θ
)
y = f(x; \Theta)
y=f(x;Θ)
的形式, 其中
f
f
f 主要表示模型的结构,
Θ
\Theta
Θ 则表示模型训练出来的参数. 参数越多, 所能应对的问题越复杂. 对于当前的大模型, 动辄 100 亿以上的参数.
当模型参数很多, 而训练数据较少的时候, 这些数据可能被
Θ
\Theta
Θ “记忆” 下来了, 因此出现拟合能力好, 但泛化能力差的现象, 称为 “过似合”. 我们对 iris 这类小数据进行分类时, 不可以使用较多层网络, 就是这个原因. 我试过, 建议读者也试一下.
当训练数据很多的时候, 模型已经无力将它们都记住, 因此, 假设训练数据与测试数据独立同分布, 拟合能力好就可以保证泛化能力也好. 这也是我们常说的: 深度学习非常 “吃” 数据. 如果只有少量的数据, 还不如用 SVM 等传统方法效果好.
根据西瓜书所分析的, 如果训练数据足够多, 则
k
k
kNN 的误差不会超过 Bayes 误差 (理论最小误差) 的两倍.
3. DL-FWI 的核心问题
3.1 构建具有良好拟合能力的网络结构
现在已经有不少这样的网络结构, 如 U-Net, 或一些 GAN 网络. 一种观点是把反演看作是图像的风格迁移问题, 这样的话, 很多流行的用于图像处理的网络都可以直接拿来做 DL-FWI.
3.2 生成大量高质量的训练网络
根据上一节的讨论, 如果我们拥有大量高质量 (与现场数据独立同分布) 的数据, 直接训练网络就完事儿了. 计算机视觉领域之所以在近年来获得了突破性的进展, 与几个大型图片数据集的构建有着密切联系.
Open-FWI 的构建与公开, 对于 DL-FWI 的研究非常重要. 但它提供了的数据都是用模型来生成的合成数据. 如何生成与实际数据更切合的训练数据, 并不是一件容易的事情.
3.3 设计效果良好的训练策略
在训练数据给定且无法增加的情况下, 训练策略也对网络的性能产生重要影响.
3.4 PINN: Physics informed neural network
将物理规律融入模型, 可以减少数据的使用量. 虽然看起来高大上, 这也是没有办法的办法.