聚焦油气上游工业软件领域，负责行业数据平台的架构设计与实现

本文链接：https://blog.csdn.net/weixin_41429382/article/details/143856663

在油气上游工业软件领域，数据平台架构设计与实现至关重要。目前，我国在该领域面临一些挑战与机遇。

我国石化研发设计类软件高度依赖国外，欧美产品占据价值链高地，存在“卡脖子”风险，制约着产业未来的发展。随着我国跻身世界石化大国行列，对高端化、绿色化、智能化发展需求日益增长，石化工业软件将成为优化生产与管理流程、提升全要素生产率的重要支撑。

油气勘探开发具有海量数据的特点，得益于大数据、云计算等新兴领域的快速发展，如中国石油开发的梦想云平台，以统一数据湖、统一技术平台、通用应用和标准规范体系为核心，实现了油气勘探开发生产的跨越式迈进。

在数据采集方面，石油开采、生产设备不会自动产生、记录数据，很多日常设备状态数据需大量人力手工记录，且缺乏数据工具平台，数据录入过程复杂。以某石油企业为例，2017 年石油开采不同环节需要日常上报的报表多达 55 份，可见日常数据记录采集工作的复杂程度。

数据平台架构一般包括数据采集层、数据存储与分析层、数据共享层、数据应用层。数据采集层负责把数据从各种数据源中采集和存储到数据存储上，期间可能会做一些简单的清洗。对于关系型数据库以及部分 NOSQL 中的数据，可使用 DataHub 按天、按小时，增量抽取到 HDFS，映射到 Hive 表；对于日志数据，使用 Flume 从日志收集服务器实时抽取到 Kafka，再使用 Flume，从 Kafka 抽取到 HDFS，映射到 Hive 表。

离线计算 80%以上使用 Hive，部分新业务使用 SparkSQL，很少一部分老的业务仍然使用 MR；离线计算的结果，根据业务用途不同，分别保存在 Hive、Redis 以及业务关系型数据库中。实时计算使用 Spark Streaming 以及部分 Java 程序消费 Kafka 中收集的日志数据，实时计算结果大多保存在 Redis 中。多维分析 OLAP 现在使用 Kylin 作为 OLAP 引擎，数据开发人员在 Hive 数据仓库中设计好事实表，维度表，在 Kylin 中设计好 Cube，每天将数据由 Hive 加载到 Kylin，数据分析、产品运营通过 Kylin 来完成 90%以上的数据分析需求。

此外，国家管网集团油气管道“工业互联网+安全生产”建设正式启动，到 2023 年我国油气管道数据将实现“全国一张网”。该平台将打通企业广域网与互联网的数据通道，为国内、国际其他管道企业提供开放的数据标准、数据资产及工业 APP 资源池。