大数据-数据湖建设

前言

本篇文章主要介绍数据湖建设的一些方法论

一、数据湖逻辑架构

在这里插入图片描述

数据湖的建设通常有如下特点:

  • 逻辑统一:数据湖不是一个单一的物理存储,而是根据数据类型、业务区域等由多个不同的物理存储构成,并通过统一的元数据语义层进行定义、拉通、和管理
  • 类型多样:数据湖存放着不同类型的数据,包含业务交易、企业办公过程中产生的结构化以及非结构化数据
  • 原始数据:对原始数据的汇聚,不进行人任何的转换、清洗、加工等处理;保留数据最原始特征,为数据的加工和消费提供丰富的可能

二、数据入湖的6个标准

  1. 明确数据owner:一般是数据生产人员担任,是数据端到端管理的责任人,负责对入湖的数据定义数据标准、密级,承担数据质量问题
  2. 发布数据标准:入湖数据要有相应的业务数据标准,这些标准描述了公司层面需要共同遵守的属性层数据的含义和业务规则,是公司层面对某个数据的共同理解,一旦发布,就应该共同遵守
  3. 认证数据源:通过认真数据源,能够保证数据从正确的数据源头入湖。一般首次正式发布的应用系统,经过数据管理专业组织认证,看作为唯一的数据源头被数据湖调用,入过应用系统数据源有变化,应及时对数据源进行失效,并重新日引入新的数据源
  4. 定义数据密级:数据密级是入湖的必要条件,为了确保数据湖中的数据能充分共享,有不发生信息安全问题,入湖后必须要定密;
  5. 数据质量评估:数据入湖不需要对数据进行清洗,但是需对数据进行评估,让数据消费者了解到数据质量情况;
  6. 元数据注册:是指将入湖数据的业务元数据和技术元数据进行关联,可以参考都柏林核心元数据指标,此外元数据也是后面数据地图进行数据检索的重要支撑;

三、几种入湖手段的比对

入湖手段工具实时性批量处理历史数据处理备注
批量集成ETL/ELT非实时支持支持
数据复制CDC实时通常不支持通常不支持
消息集成MQ实时通常不支持通常不支持
流集成Pipeline实时通常不支持通常不支持
数据虚拟化虚拟化工具实时支持支持属于虚拟入湖,不需要进行数据的搬运

四、不同数据结构入湖

结构化数据入湖

结构化入湖是指又二维表结构来逻辑表达和实现的数据,严格遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理

入湖的过程:数据入湖需求分析及管理-> 检查数据入湖条件和评估入湖标准-> 实施数据入湖-> 注册元数据

非结构化数据入湖

非结构化数据包括无格式的文本、各类格式的文档、图像、音频、视频等多样异构的格式文件,相较于结构化的数据,非结构化数据更难以标准化和理解,因而非结构化数据的管理不仅包括文件本身,而且包括对文件的描述属性,也就是元数据信息

参考:
《华为数据之道》
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值