自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 尚硅谷电商6.0零碎知识

HDFS的DataNode节点保存数据的路径由参数决定。

2025-11-16 13:45:35 700

原创 Kafka

整个架构中包括三个角色。整体架构很简单,Kafka给Producer和Consumer提供注册的接口,数据从Producer发送到Broker,Broker承担一个中间缓存和分发的作用,负责分发注册到系统中的Consumer。

2025-11-16 12:15:18 699

原创 数据仓库相关组件知识

适用场景:大量不同的Key被分配到了相同的Task造成该Task数据量过大。方案:使用自定义的Partitioner(默认为HashPartitioner),将原本被分配到同一个Task的不同Key分配到不同Task。

2025-11-14 19:52:03 1023

原创 数据仓库数据质量

数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑,一致性并不意味着数值上的绝对相同,而是数据收集、处理的方法和标准的一致。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致,更为常见的数据准确性错误就如乱码,其次异常的大或者小的数据也是不符合条件的数据。完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。规范性指的是描述数据遵循预定的语法规则的程度,是否符合其定义,比如数据的类型、格式、取值范围等。

2025-11-14 11:15:25 309

原创 数仓分层架构

清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解。减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层解决特定的问题。统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径。DWD:对ODS层数据进行清洗转换(数据标准化,数据清洗,维度退化)ADS:对DWS层数据进行二次聚合,直接对接报表,BI工具等应用场景。数据清洗:去重,填补缺失值等。DIM:用于存储各种维度数据。

2025-11-13 17:49:51 211

原创 数据仓库建模

inmon范式建模和kimball维度建模范式建模是类似于数据库需要满足一定的范式要求,每个信息只存储一次以消除冗余,数据仓库需满足第三范式(3NF)每个元素独立、非主属性必须依赖主属性而非部份依赖、非主属性不可依赖除主属性的其他属性维度建模是面向数据集市、数据主题的,通过构建事实表和维度表来建立数据仓库模型,常见的是雪花模型和星型模型。星型模型所有维度表都与事实表关联,数据存在冗余,,是一种反规范化的数据建模模型,但效率高,空间换时间雪花模型维度表还可以与关联在事实表的维度表关联,从而连接到事实表,是一种

2025-11-13 17:25:15 275

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除