在油气上游工业软件领域,数据平台架构设计与实现至关重要。目前,我国在该领域面临一些挑战与机遇。
我国石化研发设计类软件高度依赖国外,欧美产品占据价值链高地,存在“卡脖子”风险,制约着产业未来的发展。随着我国跻身世界石化大国行列,对高端化、绿色化、智能化发展需求日益增长,石化工业软件将成为优化生产与管理流程、提升全要素生产率的重要支撑。
油气勘探开发具有海量数据的特点,得益于大数据、云计算等新兴领域的快速发展,如中国石油开发的梦想云平台,以统一数据湖、统一技术平台、通用应用和标准规范体系为核心,实现了油气勘探开发生产的跨越式迈进。
在数据采集方面,石油开采、生产设备不会自动产生、记录数据,很多日常设备状态数据需大量人力手工记录,且缺乏数据工具平台,数据录入过程复杂。以某石油企业为例,2017 年石油开采不同环节需要日常上报的报表多达 55 份,可见日常数据记录采集工作的复杂程度。
数据平台架构一般包括数据采集层、数据存储与分析层、数据共享层、数据应用层。数据采集层负责把数据从各种数据源中采集和存储到数据存储上,期间可能会做一些简单的清洗。对于关系型数据库以及部分 NOSQL 中的数据,可使用 DataHub 按天、按小时,增量抽取到 HDFS,映射到 Hive 表;对于日志数据,使用 Flume 从日志收集服务器实时抽取到 Kafka,再使用 Flume,从 Kafka 抽取到 HDFS,映射到 Hive 表。
离线计算 80%以上使用 Hive,部分新业务使用 SparkSQL,很少一部分老的业务仍然使用 MR;离线计算的结果,根据业务用途不同,分别保存在 Hive、Redis 以及业务关系型数据库中。实时计算使用 Spark Streaming 以及部分 Java 程序消费 Kafka 中收集的日志数据,实时计算结果大多保存在 Redis 中。多维分析 OLAP 现在使用 Kylin 作为 OLAP 引擎,数据开发人员在 Hive 数据仓库中设计好事实表,维度表,在 Kylin 中设计好 Cube,每天将数据由 Hive 加载到 Kylin,数据分析、产品运营通过 Kylin 来完成 90%以上的数据分析需求。
此外,国家管网集团油气管道“工业互联网+安全生产”建设正式启动,到 2023 年我国油气管道数据将实现“全国一张网”。该平台将打通企业广域网与互联网的数据通道,为国内、国际其他管道企业提供开放的数据标准、数据资产及工业 APP 资源池。
我国油气上游工业软件面临哪些挑战
我国油气上游工业软件面临着诸多挑战。首先,核心技术缺失,产品竞争力不足。工业软件发展缺少核心技术,自主研发能力弱。在产品创新数字化领域,厂商规模较小