数仓建设生命周期_阿里云数仓总架构师:企业大数据平台仓库架构建设思路

本文探讨了在数据爆炸性增长的背景下,如何构建稳定、可信、丰富、透明的数据仓库。强调了大数据平台在计算存储、接口、采集通道和安全性上的优势。提出了数据仓库构建的四个原则:全面性、高容错性、数据质量监控和冗余利用。介绍了模型设计(维度建模、实体关系建模、星型模型和雪花模型)和数据分层(基础层、中间层、集市层)。重点讨论了数据服务化(统计、分析、标签服务)和数据治理(数据质量、生命周期管理)的重要性,以及架构设计中的一些实用策略。
摘要由CSDN通过智能技术生成

总体思路

随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据不断地产生。新环境下的数据应用呈现业务变化快、数据来源多、系统耦合多、应用深度深等特征。那么基于这些特征,该如何构建数据仓库呢?我认为应该从稳定、可信、丰富、透明四个关键词入手。其中,稳定要求数据的产出稳定、有保障;可信意味着数据的质量要足够高;丰富是指数据涵盖的业务面要足够丰富;透明要求数据构成流程体系是透明,让用户放心使用。

我们之所以选择基于大数据平台构建数据仓库,是由大数据平台丰富的特征决定的:

强大的计算和存储能力,使得更扁平化的数据流程设计成为可能,简化计算过程;

多样的编程接口和框架,丰富了数据加工的手段;

丰富的数据采集通道,能够实现非结构化数据和半结构化数据的采集;

各种安全和管理措施,保障了平台的可用性。

仓库架构设计原则包括四点:第一自下而上结合自上而下的方式,保障数据搜集的全面性;第二高容错性,随着系统耦合度的增加,任何一个系统出现问题都会对数仓服务产生影响,因此在数仓构建时,高容错性是必不可少的因素;第三数据质量监控需要贯穿整个数据流程,毫不夸张地说,数据质量监控消耗的资源可以等同于数据仓库构建的资源;第四无需担心数据冗余,充分利用存储换易用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值