![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
文章平均质量分 66
发条橙1226
这个作者很懒,什么都没留下…
展开
-
实时数仓建设规范
1、实时数仓与离线数仓的区别1、架构上:实时数仓在离线数仓的基础上,数据集成改为实时的数据集成,例如采用canal、dts和消息中间件(kafka)来及时采集和更新数据。2、数据处理上:增加了流式ETL和流式汇总。离线数据仓库主要采用T+1的方式处理数据,即第二天处理前一天的数据(这里可以是天,周或者是年,看具体业务情况)。而实时数仓则需要在秒级别内实现对数据的处理,因此通常情况下,会使用flink或spark streaming来计算数据,实现实时计算。总结:实时数仓相较于离线数仓数据来源原创 2021-09-22 17:27:34 · 809 阅读 · 0 评论 -
离线数仓建设规范
1、规范命名的目的便于数据的统一管理和使用,达到见表识义的目的。易于后期的维护和问题的快速定位追踪。通过一定规则的命名,将不同的业务线、不同数据源、不同维度、 不同周期的数据分开。2、业务流程的规范命名通过不同的编号来区分不同的迭代数据,再组合上下划线“-”和迭代数据输出的落地页名称,直接明了地表示数据的输出和输入位置。例如:经分迭代三十_落地页名称3、节点名称规范当ads层中某个指标只有唯一计算的话,则计算节点和数据集成节点的名称保持一致。节点依赖规范:业务中节点之间的原创 2021-09-22 17:17:04 · 408 阅读 · 0 评论