《华为数据之道》读书笔记五----面向联接共享的数据底座建设

一、数据底座建设框架

1、数据底座建设目标:

1)统一管理结构化、非结构化数据。将数据视为资产,能够追溯数据的产生者、业务源头以及数据的需求方和消费者等。

2)打通数据供应通道,为数据消费提供丰富的数据原材料、半成品以及成品,满足公司自助分析、数字化运营等不同场景的数据消费需求。

3)确保公司数据完整、一致、共享。监控数据全链路下的各个环节的数据情况,从底层数据存储的角度,诊断数据冗余、重复以及“僵尸”问题,降低数据维护和使用成本。

4)保障数据安全可控。基于数据安全管理策略,利用数据权限控制,通过数据服务封装等技术手段,实现对涉密数据和隐私数据的合法、合规地消费。

2、数据底座总体架构

        华为数据底座由数据湖、数据主题联接两层组成:

1)数据湖是逻辑上各种原始数据的集合,除了“原始”这一特征外,还具有“海量”和“多样”(包含结构化、非结构化数据)的特征。数据湖保留数据的原格式,原则上不对数据进行清洗、加工,但对于数据资产多源异构的场景需要整合处理,并进行数据资产注册。

2)数据主题联接是对数据湖的数据按业务流/事件、对象/主体进行联接和规则计算等处理,形成面向数据消费的主题数据,具有多角度、多层次、多粒度等特征,支撑业务分析、决策与执行。基于不同的数据消费诉求,主要有多维模型、图模型、指标、标签、算法模型5种数据联接方式。

        华为数据底座采取“统筹推动、以用促建、急用先行”的建设策略。

        根据公司数字化运营的需要,由公司数据管理部统一规划,各领域分别建设,以满足本领域和跨领域的数据需求。其中,数据Owner是各领域数据底座建设的第一责任人,各领域数据部负责执行。

        数据底座资产建设遵从下面四项原则:

        1)数据安全原则:

                数据底座数据资产应遵循用户权限、数据密级、隐私级别等管理要求,以确保数据在存储、传输、消费等全过程中的数据安全。技术手段包括但不限于授权管理、权限控制、数据加密、数据脱敏。

        2)需求、规划双轮驱动原则:

                数据底座数据资产基于业务规划和需求触发双驱动的原则进行建设,对核心数据资产优先建设。

        3)数据供应多场景原则:

                数据底座资产供应需根据业务需求提供离线/实时、物理/虚拟等不同的数据供应通道,满足不同的数据消费场景。

        4)信息架构遵从原则:

                数据底座数据资产应遵从公司的信息架构,必须经IA-SAG(信息架构专家组)发布并完成注册。

【备注说明】华为的数据底座主要指的数据存储区,就如上面包括了数据湖和数据主题联接层。有些企业的数据底座包括了数据存储区(大数据平台)、数据资产管理平台、数据应用平台、数据服务共享平台。数据的采集---存储--加工--发布--应用 全过程的管控平台称为数据底座。首先,必须要明白,数据底座中的数据是用来做什么用的?核心是用来做数据分析应用的,业务信息系统间的数据集成,不通过数据底座,通过企业服务总线ESB进行集成。数据底座中的数据对内主要是在企业内部进行数据分析应用,满足各部门数据分析应用的数据需求。对外数据底座中的数据提供对外的数据服务或者引入外部数据。所以对于数据底座数据存储的划分很重要。正常从数据的内外来源来说分为内部数据和外部数据。这块有一个点,就是对于企业的冷数据(几十年前的数据,已经不用了)要不要放到数据底座存储区中。这个是需要重点讨论的。个人建议每个企业从自身角度考虑,如果数据底座的存储区足够大,可以专门建设冷数据存储区进行存储,如果空间有限,可以在业务系统的备份服务器中建设。

二、数据湖建设

1、数据湖总体视图

华为数据湖是逻辑上对内外部的结构化、非结构化的原始数据的逻辑汇聚。

【备注说明】华为的数据湖称为逻辑数据湖。主要是既有物理入湖(元数据和数据都进行入湖)、也有虚拟入湖(元数据入湖,但数据不入湖)。

2、数据湖特点

        1)逻辑统一。华为数据湖不是一个单一的物理存储,而是根据数据类型、业务区域等由多个不同的物理存储构成,并通过统一的元数据语义层进行定义、拉通和管理。

        2)类型多样。数据湖存放所有不同类型的数据,包括企业内部IT系统产生的结构化数据、业务交易和内部管理的非结构化的文本数据、公司内部园区各种传感器检测到的设备运行数据,以及外部的媒体数据等。

        3)原始记录。华为数据湖是对原始数据的汇聚,不对数据做任何的转换、清洗、加工等处理,保留数据最原始特征,为数据的加工和消费提供丰富的可能。

3、数据入湖的6个标准

        1)明确数据Owner

                数据Owner由数据产生对应的流程Owner担任,是所辖数据端到端管理的责任人。

                对入湖的数据定义数据标准和密级,承接数据消费中的数据质量问题,并制定数据管理工作路标,持续提升数据质量。

【备注说明】数据Owner 是企业数据管理的重要角色,一般按企业业务域分为领域数据Owner,一般为企业主管这个业务域的副总。

        2)发布数据标准

                数据标准的信息如下图所示

【备注说明】数据标准是从业务属性、技术属性、管理属性 对入湖数据的描述,比如业务属性包括上表中的所处的数据资产目录、定义的业务规则。技术属性如上表中对于数据类型、长度、允许值的定义。管理属性如上表中的责任主体内容。

        3)认证数据源

        通过认证数据源,能够确保数据从正确的数据源头入湖。认证数据源应遵循公司数据源管理的要求,一般数据源是指业务上首次正式发布某项数据的应用系统,并经过数据管理专业组织认证。认证过的数据源作为唯一数据源头被数据湖调用。

【备注说明】数据源的认证在企业内部必须要以制度文件的形式进行发布。要求数据的生产端就是数据的源头。要求一个数据原则上只有一个认证数据源系统,为首次发布此数据的信息系统。

        4)定义数据密级

        定义数据密级是数据入湖的必要条件,为了确保数据湖中的数据能充分地共享,同时又不发生信息安全问题,入湖的数据必须要定密。数据定密的责任主体是数据Owner,数据管家有责任审视入湖数据密级的完整性,并推动、协调数据定密工作。数据定级密度在属性层级,根据资产的重要程度,定义不同等级。

【备注说明】数据密级是数据入湖和后序数据共享的重要依据,按照华为的理论,绝密数据是不建议入湖的。一般在企业内部开展数据密级工作比较麻烦,开始时可以把颗粒度放粗,比如一般企业研发、财务数据都是核心机密数据,这块的的密级可以定义的高一些,其他的可以定义为内部公开。这个要和各领域的数据Owner来决定。

        5)数据质量评估

        数据质量是数据消费结果的保证,数据入湖不需要对数据进行清洗,但需要对数据质量进行评估,数据Owner和数据管家可以根据数据质量评估的情况,推动源头数据质量的提升,满足数据质量的消费要求。

【备注说明】这个很多人理解这个是不是要放在数据入湖后再做,其实是不对的,这个要求企业的数据资产平台要支持直边业务系统数据库运行质量规则,生成质量报告 。

        6)元数据注册

        元数据注册是指将入湖数据的业务元数据和技术元数据进行关联,包括逻辑实体与物理表的对应关系,以及业务属性和表字段的对应关系。支撑数据消费人员通过业务语义快速地搜索到数据湖中的数据。

【备注说明】这块其实指的是ODS元数据在数据资产平台上的注册过程,一般来说,对于ODS的数据(业务信息系统的数据)直接创建物理表,但是要保证的是物理表的元数据在数据资产平台也能进行管控住,否则无法形成后续完整的血缘影响关系图。

  • 8
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值