2024年第九届【数维杯】大学生数学建模挑战赛C题思路【免费】分享

写在前面

提示:免费思路分享,请勿照抄或商用。

团队辛苦整理,请勿搬运。完整版请关注WX公众号【保研荟】回复关键字【数维杯】领取~

数据预处理

在数据预处理部分,小伙伴们普遍存在两个疑问。
一:存在大量-9999;
二:部分饱和度数值为负值。

对于-9999,可以视为数据的缺失值,可能是设备在该深度无法采集对应的数据,可以直接删去这一部分的数据。对于饱和度的负值,这并非异常值,具体的解释如下图所示:
图源网络

第一问

对于第一问,求解的时候可以先对各个勘探井位的数据进行提取。比如,对每一个探井都可以提取其厚度、孔隙度和水合物饱和度等参数数据。在这里有效厚度的取值可以为下图四段深度的累加值。
厚度示意图

类似的,在得到厚度、孔隙度和水合物饱和度等参数的数据后,可以考虑使用地质统计学中常用的克里金插值模型(Kriging Interpolation Model)对其余的点位进行插值。

克里金插值模型是一种用于空间插值的地统计学方法。它利用已知的数据点来估计未知位置的数值,并且提供了对估计误差的评估。这个模型以其创始人法国数学家克里金的名字命名。

克里金插值模型的数学表达式为:
在这里插入图片描述
这里,Z(u)是我们要估计的位置u的值,u_i是已知数据点的位置,Z(u_i )是这些已知点的值,λ_i是根据已知点的空间关系计算得出的权重。

克里金插值模型的核心思想是利用已知点的空间相关性来推断未知点的值,通过对已知点的线性组合来进行估计。

除此之外,还可以考虑使用神经网络的方法对数据进行预测,可以利用传统的BP神经网络、PBF神经网络,也可以考虑使用XGBoost等模型,以坐标为输入,对应的指标作为输出,建立进行预测。
在这里插入图片描述
在得到各个指标后,还可以考虑使用AHP、TOPSIS等评价模型对各个勘探井进行评价。

第二问

对于第二问,要确定研究区域内天然气水合物资源参数有效厚度、地层孔隙度和饱和度的概率分布及其在勘探区域内的变化规律。要求数据的概率分布通常包括以下的方法:

(1)频率分布:对数据进行分组,然后计算每个组的频率(即数据落入该组的次数除以总次数)。这可以用来绘制直方图,从而对数据的分布有一个直观的了解。
(2)参数分布拟合:假设数据符合某种已知的概率分布,比如正态分布、指数分布等。然后利用最大似然估计或最小二乘法等技术,拟合这些分布的参数,以最大程度地符合观测到的数据。
(3)核密度估计:通过在每个数据点处放置一个核(比如高斯核),然后将它们叠加起来,以估计整体数据的概率密度函数。
(4)经验分布函数:对于给定的数据集,经验分布函数给出了每个数值的累积分布函数。这种方法提供了数据集的直接经验估计。
(5)贝叶斯方法:利用贝叶斯统计推断数据的概率分布,基于先验概率和观测数据来计算后验概率分布。

在本题中推荐使用核密度估计的方法。核密度估计是一种非参数估计概率密度函数的方法,它可以用来估计观测数据背后的概率分布。这个方法的核心思想是在每个数据点处放置一个核函数,然后将它们叠加起来以估计整体数据的概率密度函数。假设我们有观测数据x_1,x_2,…,x_n,核密度估计的公式如下:
在这里插入图片描述
其中,K(.)是核函数,h是带宽(bandwidth)。常见的核函数包括高斯核(也称为正态核)和 Epanechnikov 核,而带宽h则决定了估计的平滑程度。选择适当的核函数和带宽对于得到准确的密度估计非常重要。

对于变化规律的求解,可以针对不同的深度分别进行讨论。对不同的深度层分别进行切片,然后以坐标为自变量,以对应的指标为因变量构建分布模型。这里可以考虑建立机器学习模型,也可以利用曲面对数据进行拟合。

第三问、第四问

提示:完整版思路请关注WX公众号【保研荟】回复关键字【数维杯】领取~
后续会整理所需代码发布在公众号中,码住!

  • 45
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值