油田生产数据选取进展22_1_30

weixin_43425490

已于 2022-01-30 03:10:42 修改

阅读量609

点赞数

分类专栏：产量预测文章标签：深度学习机器学习概率论

于 2022-01-30 02:52:28 首次发布

本文链接：https://blog.csdn.net/weixin_43425490/article/details/122749844

版权

产量预测专栏收录该内容

15 篇文章 2 订阅

订阅专栏

1.修改数据
其中基本为负类，符合规则，无更多备注信息，但专家未使用。
准备修改48天的数据(负类共计108 天)。

2.修改属性

产液量直接根据实际运转时间折算为速率，删除停泵时间属性
增加提取的属性：连续未使用计量值时间

3.生成数据

符号表

符号	意义
${fr}_n$	第 n 项数据产液量计量值
$\overline {fr}_n$	第 n 项数据选用产液量
$\hat {fr}_{n}$	第 n 项数据推导选用产液量
$C_n$	第 n 项数据油嘴尺寸
$Fre_n$	第 n 项数据泵频率
$w_c$	油嘴尺寸影响系数
$w_f$	泵频率影响系数
$\mathbf {M_n}$	第n天计量值集合

产液量大部分情况下依靠前一项数据选用值，仅对最近一次控制修改做出变化。生成带控制变化的数据：

$\hat{fr_n} = \left\{ \begin{aligned} &\overline{fr}_{n-1} + w_c (C_{n - 1} - C_{n - 2})^2 + w_f(Fre_{n - 1} - Fre_{n - 2}) &\\ &0, \mathrm {"well\ shut\ in"\ in\ keywords}\\ \end{aligned} \right.\tag{1}$

实际判断时（是否会出现fre、choke同时调整但是一正一负的情况？），则只需要判断 $w_c, w_f$ 的正负。

假设计量当天存在 $m$ 次计量，计量集合为 $\mathbf {M_n}$ ， $mfr_i \in \mathbf {M_n}, 1\le i \le m$ ： $\mathbf {M_n} \sim{N(\overline {fr}_{n}, \sigma_n ^2)}$

$\sigma_n ^2 = \left\{ \begin {aligned} &\frac {\sum_{\overline {fr}_{i-1} < 1000} (fr_i - \overline {fr}_{i-1})^2}{m_1}, &\overline {fr}_{i-1} <1000\\ &\frac {\sum_{\overline {fr}_{i-1} \ge 1000} (fr_i - \overline {fr}_{i-1})^2}{m_2}, &\overline {fr}_{i-1} \ge 1000\\ \end{aligned} \right.\tag{2}$

其中：
$m_1 + m_2 = m$

注意：

每天只有一次计量值或者含水率采样值
控制变量（泵频率、油嘴尺寸）的可能发生变化，导致产液量进入不同的水准，这里直接按照1000来划分两个产液量水准。

由于每次计量的环境的都不同，统计方法也非常规，根据现有数据来获取产液量计量的方差可行但可能不可靠，对方差的获取方式仍有问题。

不靠谱的话，手动设置方差 $\sigma_n ^2$ ，控制变量的系数 $w_c, w_f$ ，生成数据映射到二维图像来判断是否符合一般情况下的分布较为合适。

4.目前效果
在有生成数据的训练集中，准确率，负类查准、查全最好的状态：

AccuracyF	precisionFn	recallFn
85.01%	51.19%	38.39%

有些驾驭不住ANN。除开数据本身的问题，对于生成的数据，自己写的ANN模型也并没有很好学习到数据的分布。

weixin_43425490

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
油田生产数据选取进展22_1_30

1.修改不合规则的数据。其中以负类居多，已修改数据48天(负类共计108 天)。2.修改属性：产液量直接根据实际运转时间折算为速率，删除停泵时间属性增加提取的属性：连续未使用计量值时间3.生成数据符号表符号意义frn{fr}_nfrn第 n 项数据产液量计量值fr‾n\overline {fr}_nfrn第 n 项数据选用产液量fr^n\hat {fr}_{n}fr^n第 n 项数据推导选用产液量CnC_nCn第 n 项数据油嘴尺寸
复制链接

扫一扫