用友数据中台围绕数据从采集、存储、计算、分析、共享的端到端数据应用周期,从基于数据的业务创新出发,满足对数据的应用需求,提供海量多源异构数据整合、实时数据计算与发布、统一通道数据调用与分析能力,具备高可复用、高可靠、高效的开放型数据治理能力、快捷方便的数据服务能力,是一体化数据驱动的完整解决方案。
其中,数据汇聚存储是数据中台的核心技术能力之一。用友数据中台针对不同的业务数据类型、业务系统技术架构,设计不同的数据采集策略、数据同步规范、数据质量控制规范、数据存储方案等,实现业务中台数据、应用系统数据的集成汇聚。
结构化数据采集存储
来自信息系统、文本文件、API服务等结构化数据仍然是数据中台主要的数据来源,这类数据通过采集被存储在Oracle等关系型数据库、或者Greenplum MPP数据库中,以便提供数据的深度分析与应用。对时效性不敏感的数据,一般可以选择T+1模式来批量抽取数据,对于部分时效要求高的表,可以采用实时同步的方式。根据数据应用场景的不同,决定明细数据是直接加载,还是在ETL服务器上汇总后再加载入库
T+1数据同步场景
常规业务场景下,数据抽取频率为每天一次,也可以根据需要设置为按分钟、按小时进行批量数据同步。维度表单表数据量较小,时效要求中等,采用全量同步方案,每次抽取清空历史数据,然后全量加载。事实表,单表数据量大,时效要求中等,采用增量更新方案,通过时间戳和业务标识识别增量数据。
实时数据同步场景
对于事实表单数据量较大,时效要求高的数据,采用实时同步方案。每次源数据发生增删改除等操作时,自动读取数据库的操作日志,将改变的数据同步到数据中台的同名表中。
IoT系统数据采集方案
越来越多的数据项目涉及到了物联设备的数据应用,针对Iot等数据的采集,数据中台也提供了针对性的解决方案。
IoTDB由于其轻量级的结构、高性能和可用的特性,以及与Hadoop和Spark生态的无缝集成,满足了工业IoTDB领域中海量数据存储、高吞吐量数据写入和复杂数据分析的需求。可以提供数据收集、存储和分析等特定的服务。
数据中台IoT接入涉及Kafka消息队列集群,大数据存储组件,数据计算单元和数据展示单元。IoT数据通过数据计算,支持数据模型的深度应用,例如利用机器学习技术判断设备运行状态等数据分析场景。
非结构化数据采集存储
非结构化数据包含视频、音频、图片、日志文件、备份数据和容器/虚拟机镜像等不同类型,并且一个对象文件可以是任意大小,从几kb到最大5T不等,存量数据较大,同时数据的增量也较快。
数据湖针对此类非结构化数据,采用Minio存储源文件,Mysql存储对应的数据元信息的解决方案,便于管理。
Minio 是兼容亚马逊S3云存储服务接口的对象存储服务,非常适合于存储大容量非结构化的数据。而元信息与源文件是同一生命周期的,需要在同一事务中添加或者删除。
从成本角度考虑,有文件入湖和索引入湖两种方案可以选择。
索引入数据中台
视频、音频文件、图片数据只将索引数据采用定时抽取的方式同步入数据中台,数据保留在原始物理存储位置不变。
文件入数据中台
视频、音频文件,或保存在数据库中图片数据可以采用T+1定时抽取的方式同步数据,数据抽取到数据湖中进行存储。
汇聚的数据资源经过数据治理形成企业数据资产,支撑数据计算、数据共享等深度应用,帮助企业快速的从海量数据中挖掘价值,满足企业对数据的应用需求。