油田生产数据选取问题3

最新推荐文章于 2024-07-19 15:44:38 发布

weixin_43425490

最新推荐文章于 2024-07-19 15:44:38 发布

阅读量252

点赞数

分类专栏：产量预测文章标签：深度学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43425490/article/details/122389392

版权

产量预测专栏收录该内容

15 篇文章 2 订阅

订阅专栏

查准率、查全率参考链接

问题

之前被模型的高正确率、查准率、查全率蒙蔽了双眼。紫菜。。。
问题出处：
1.对于未计量的数据，在预处理打标签时，直接将其等同于未选用归为负类。这样的负类就地提高了模型整体的准确率。把未计量的数据拿进去跑确实没什么意义，可以说模型只学习到了是否发生计量。
2.负类太少，导致正类的查准率和查全率看起来很高。

检验

1.修改数据集，不考虑含水率，只采用带有“measuring”关键字的数据项并作预处理。训练得到对于负类的查准率很低。
2.数据集中负类数量较少，约16%。包括曾经记录方式不同的数据，该数据可能在预处理时直接被归为负类，但在目前数据集上只占极少数。
3.绝大多数的数据其实只包含了关键字“measuring”、“sampling”，k规则少有用武之地。
考虑直接根据规则生成满足规则的强数据集。

框架修改

流程：
1.根据计量值与选用值是否相同，得到带标签数据集。
2.

抽取带标签数据集中的数据，再生成满足对应k规则的带标签强化数据集。注意调整正负类的占比。
对抽取方法的选取注意时序的影响，同时也待验证。满足k规则不一定是同时满足所有k个规则，而是使满足规则数量最大化，且包含规则覆盖的所有情况。比如“well shut in”关井和“open well”开井是一对矛盾的关键字，不可能同时出现，这两个关键词需要分别生成数据。实际情况下也极少出现很多关键字同时出现的情况。
带标签数据集合直接训练，获得初步的训练好的ANN模型

3.用强数据集进一步训练已有模型，获得增强模型

在这里插入图片描述

教训：充分了解数据特点，避免做过多的无用功。

weixin_43425490

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
油田生产数据选取问题3

目前查准率和查全率很低。绝大多数的数据其实只包含了关键字“measuring”、“sampling”，...
复制链接

扫一扫

专栏目录

weixin_43425490

博客等级

码龄6年

32
原创

16
点赞

32
收藏

96
粉丝

关注

私信

热门文章

分类专栏

最新评论

油田生产数据选取进展22_1_30
闵帆: 效果不好的原因分为几种 1. 数据质量不高。条件属性与决策之间的关系不紧密。解决方案：获取更有因果关系的数据。 2. 预测算法不好。总是抓不住数据的特点。解决方案：试下别的预测算法，在 sklearn 里面一大堆，几条语句搞定。
油田生产数据选取问题4
weixin_43425490: 使用设备计量。第二个问题可见专栏中之前的文章 https://blog.csdn.net/weixin_43425490/article/details/121305869。套压有，但很多信息我还没用上。连通性是指油井与油井间的关系吗？是的话那就没有该数据。
油田生产数据选取问题4
肖永威: 产液量是用什么计量设备计量的？有人工干预和推算的吗？比如套压、连通性有数据？
油田生产数据选取问题3
闵帆: 你按照 imbalance data 和 cost-sensitive learning 查参考文献，写出来的论文就有品味啦。
油田生产数据选取问题3
闵帆: 自己从坑里爬出来了，厉害厉害！imbalance data 是现实数据的常有特性，有些 cost-sensitive learning 就是处理的相应学习问题。见 https://blog.csdn.net/minfanphd/article/details/120315572

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。