产量数据选用问题

背景与问题:现场仪器误差大,机器收集的数据在某些极端环境影响下不具有参考性。部分数据难以判断。每天的产液量与含水率是否选用。
输入:一口井近十年的观测数据,产液量(整形)、含水率(浮点),包含备注(字符串,有统一的编辑标准)
输出:是否选用该天产液量和含水率数据。

人工选择过程(分别有专家规则、专家经验数据)
step1. 是否满足硬性规则,若满足则选取(专家规则),否则转step2.

  • 井种及其记录数据:
    电泵井 (产液量、含水率)、自喷井(产液量)
  • 规则:
    1)计量在正常的波动范围,直接采用。
    2)超波动范围,落实数据后,根据备注等信息确定是否选取。

step2. 参考前7天和后3天的数据,进行调整(专家经验数据),如果难以判断,转step3.
step3. 查看井组或者整体油井的历史数据(专家经验数据)
最终可能仍然遇到即使查看了井组和油田的数据也无法判断是否选用数据的问题。


老板的方法:

First, we partition historical data according to the number of rules covering them.
Regions 0, 1 and k k k correspond to data matching no rule, 1 rule, and multiple rules, respectively.
Second, we construct a neural network with 10 layers using both Sigmoid and Relu activators.
It is trained using region-1 data and the labels predicted by the corresponding rules.
Third, we obtain region-k data and their labels specified by the expert.
These data are mixed with region-1 data according to a specific ratio to train the model further.
1.根据数据覆盖的规则数量对它们进行划分。 region-0、1 和 k k k 分别对应 0规则匹配、1 规则匹配和多规则匹配的数据。
2.构建神经网络。 使用region-1 数据和对应规则所预测的标签进行训练。
3.获得由专家指定的 region-k 数据及其标签。 这些数据按照特定比例与 region-1 数据混合以进一步训练模型。

参考人工操作,我们将问题处理划分为多个阶段
阶段1:单井数据问题处理
数据预处理:对满足规则的数据打上对应的标签。虽然人工判断上有如step1.直接获取结果的情况,但在机器学习中则应该把所有属性纳入考虑。
训练方法:利用有标签的数据训练神经网络,训练好的模型再用以其他数据的判断。

同时,考虑弱标签和强标签学习。具体的数据包含了很多不确定的因素,专家也无法给出确定的结果。根据专家规则,对于满足硬性要求的数据,即可视为带有强标签的数据;对于不确定的数据,根据其满足的规则,打上对应的弱标签。

阶段2:代入历史数据
单井情况下,问题本质可能还是像产量预测一样的时序问题,并且有多个参数和变量控制。考虑采用RNN来处理。

阶段3:多井集中学习

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值