- 博客(6)
- 收藏
- 关注
原创 Kafka
整个架构中包括三个角色。整体架构很简单,Kafka给Producer和Consumer提供注册的接口,数据从Producer发送到Broker,Broker承担一个中间缓存和分发的作用,负责分发注册到系统中的Consumer。
2025-11-16 12:15:18
699
原创 数据仓库相关组件知识
适用场景:大量不同的Key被分配到了相同的Task造成该Task数据量过大。方案:使用自定义的Partitioner(默认为HashPartitioner),将原本被分配到同一个Task的不同Key分配到不同Task。
2025-11-14 19:52:03
1023
原创 数据仓库数据质量
数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑,一致性并不意味着数值上的绝对相同,而是数据收集、处理的方法和标准的一致。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致,更为常见的数据准确性错误就如乱码,其次异常的大或者小的数据也是不符合条件的数据。完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。规范性指的是描述数据遵循预定的语法规则的程度,是否符合其定义,比如数据的类型、格式、取值范围等。
2025-11-14 11:15:25
309
原创 数仓分层架构
清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解。减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层解决特定的问题。统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径。DWD:对ODS层数据进行清洗转换(数据标准化,数据清洗,维度退化)ADS:对DWS层数据进行二次聚合,直接对接报表,BI工具等应用场景。数据清洗:去重,填补缺失值等。DIM:用于存储各种维度数据。
2025-11-13 17:49:51
211
原创 数据仓库建模
inmon范式建模和kimball维度建模范式建模是类似于数据库需要满足一定的范式要求,每个信息只存储一次以消除冗余,数据仓库需满足第三范式(3NF)每个元素独立、非主属性必须依赖主属性而非部份依赖、非主属性不可依赖除主属性的其他属性维度建模是面向数据集市、数据主题的,通过构建事实表和维度表来建立数据仓库模型,常见的是雪花模型和星型模型。星型模型所有维度表都与事实表关联,数据存在冗余,,是一种反规范化的数据建模模型,但效率高,空间换时间雪花模型维度表还可以与关联在事实表的维度表关联,从而连接到事实表,是一种
2025-11-13 17:25:15
275
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅