数据开发是数据资产化的总要手段
数据要真正实现资产化,要真正为下游业务提供支撑,就必须对数据进行开发,让数据的业务价值展现出来,方便业务侧更加高效的利用数据。数据开发从过程和范围来说,也是一个涵盖较广的系统工程,从数据模型设计到ETL实施,需要做的工作有很多。
数据从源端采集到数仓中,先落在数仓的ODS层,然后进过ETL最终在DM层构建各主题的大宽表为下游的BI系统和业务系统提供支撑,对于OLTP业务,则利用流处理模块对数据进行流式开发。
数据的接入:数据接入过程(也就是数据采集),需要根据不同的数据源选择合适的接入方式,一般来说有API接入、FTP/SFTP、消息组件Kafka/MQ、JDBC/ODBC、第三方工具等方式,通过按场景做好对应的适配,将分散的数据采入数仓。
模型设计:模型的设计会根据数仓各层的特点和需求进行设计,一般都会提供模型开发的统一平台,方便用户进行可视化的模型设计,并实现模型的统一管理。
程序开发:可以通过脚本程序来实现数据在数仓各层的ETL,不过现在很多中台系统都会提供有拖拽式的程序开发能力,极大降低了程序开发的门槛,用户可以按需进行相关ETL程序的开发,实现数据在数仓各层的治理。
数据治理贯穿开发始终
数据开发的过程也是数据治理贯穿的过程,在数据模型设计的阶段,数据的各类标准规范将被遵循和落实,例如字段标准、词汇标准、命名规范等。在ETL程序开发过程中,元数据的治理也会充分体现,通过输出的各元数据为数据血缘等治理工作提供支撑。
总结:数据开发是将数据转化到业务的过程,各类数据汇聚后经过数据开发,在数仓中形成面向业务主题的宽表,后续的应用层利用数仓的数据进行分析,快速得到需要的结果。数据开发是数据治理的一个动态过程,在数据开发的过程中会动态融合数据治理,实现对数据开发过程的管控,提升数仓各层的数据质量。