大数据查找使用面临的挑战
企业的数据通常有两种类型:作业数据和分析数据。前者在业务运行时使用和生成,支撑业务运转;后者在运营时使用和生成,支撑企业做商业决策。前者是后者数据的来源。
图表 1从作业数据到分析数据
随着数字技术与业务场景深度融合,人、物被高速网络广泛联接起来,信息交换的速度在提升,数据的规模、复杂度达到难以想象的程度,这时企业会面临如下两个突出问题:
1.企业通常知道在哪一个业务环节生成了数据,但在最需要的时候却找不到。数据资产如果无法组织管理好,就是一片“数据沼泽”,把原本优良的资产变成企业的负担。
2.数据技术还在快速发展迭代中,如果缺乏前瞻性的设计和系统思考,就会由于技术限制导致在多个大数据引擎和AI引擎之间存在数据割裂的情况。业务人员需要在不同引擎间来回拷贝数据才能将数据用于分析,导致重复存储和加工,不仅增加了成本,也大大降低了性能。
在华为,由于流程IT和终端大数据的全面云化,华为云大数据解决的数据体量、运算量、业务复杂度在世界上绝无仅有,我们与客户一起探索解决最艰巨的数据集成治理的方式,让数据资产能“理得清”“找得快”,基于一份数据在多个分析计算引擎间自由流转的能力,为实现AI和数据的融合分析,本文将结合项目实践介绍数智融合元数据方案。
华为云数智融合元数据方案介绍
元数据中保存了数据的重要信息(如表名、字段名、时间戳、版本、表大小、格式、访问控制列表等)和关联关系(即