数仓建设
文章平均质量分 65
梳理与总结数仓相关的理论知识与实际
localhost_rachel
业精于勤 荒于嬉,形成于思 毁于随。
展开
-
初识Ranger用户权限管理
1:什么是Ranger提供一个可以在hadoop平台对安全策略进行集中管理、配置、访问的框架。2:Ranger支持的框架HadoopHiveHbaseKafka3:Ranger的架构Ranger Admin:主模版,web与权限配置功能DB:一般用mysql作db,存放策略相关数据WEBUI:通过操作网页,配置相关策略RESTAPI:通过URL的方式指定资源的位置、请求方式、操作类型来配置用户策略Solr:图形数据,数据量少Plugins:通过插.原创 2021-04-30 17:46:50 · 1434 阅读 · 1 评论 -
数仓建模的思路步骤
背景通过最近的学习与工作总结,针对不同层级的数仓建模特点,记录数仓建模实战中的一些思路与步骤。涉及到的数仓分层有:ODS层、DWD层、DWS层/DWT层、ADS层,其中ODS层属于业务数据库贴源层,存放的数据与业务系统源表保持一致,所以此处不做讲解。DWD层建模思路与步骤dwd层是以业务过程为驱动进行建模,dwd层需要构建维度模型,采用星型模型构建,呈现的形态为星座模型。dwd层建模步骤选择业务过程->声明粒度->确认维度->确认事实选择业务过程如何选择业务过程原创 2021-03-29 19:21:27 · 2170 阅读 · 0 评论 -
数仓建模
维度建模的基本概念维度建模是专门用于分析性数据库、数据仓库、数据集市的建模方法。与传统的关系性建模方法相比它增加了“维度表”与“事实表”两个概念。维度表表示对分析主题所属类型的描述。如:上周天我在天猫花费了200元购买了一副蓝牙耳机,那么以购买主题进行分析,我们可以提取出三个维度:时间维度(上周天)、地点维度(天猫)、商品维度(蓝牙耳机)。通常来说维度表比较固定,数据量比较少。事实表表示对分析主题的度量。如:上面那个例子中200元就是一个事实信息。事实表中不久包含了度量信息(实表的度量通原创 2021-03-06 12:13:05 · 236 阅读 · 0 评论 -
数据仓库分层
数仓分层的作用清晰数据结构每个数据分层都有对应的作用域与职责,在使用不同层级表的时候能更方面理解减少重复开发规范数据分层,通过开发一些通用的数据中间层,极大的减少了开发统一数据口径通过数据分层,提供统一的数据出口,统一对外输出的数据口径复杂的问题简单化将一个复杂任务拆解为多个步骤来完成,每个步骤解决特定的问题数仓通用分层设计数据运营层(ods)存放的是接入的原始数据,不会把不同的业务系统数据聚合在一起,几乎不会做任何数据清洗的工作数据仓库层(dw)数据明细层(dwd)原创 2021-02-25 15:49:03 · 175 阅读 · 0 评论 -
什么是数仓
什么是数据仓库?数据仓库全称为Data Warehouse,简称DW。它是面向主题的,集成的,相对稳定的,反映历史变化的数据存储集合,用于支撑企业的分析报告与决策。数仓的输入与输出数仓的几个特定是什么?主题性将不同数据源的数据在一个较高抽象层次上做整合,数据围绕某一主题进行汇总,如电商主题有:订单、流量、商品、用户等。集成性数仓中的数据来源于不同数据源的集成(如:tob业务系统数据源,toc业务系统数据源,erp业务系统数据源),且这些数据源的存储方式可能不同(如:mys...原创 2021-02-25 07:21:12 · 14706 阅读 · 0 评论