数据仓库
文章平均质量分 70
木给哇啦丶
这个作者很懒,什么都没留下…
展开
-
宽表:数据仓库 - “宽表”之争?
昨天在技术交流群里一个问题引发了激烈的讨论,我决定把它记录下来。问题如下:DWD 中有宽表么? 作为扫盲文章,基础知识我们再普及一下,先介绍下基础相关概念。数仓分层(来自:个人理解) ODS、DWD、DWS、ADS 等,具体含义不做解释,数仓分层是大家为了抽象业务,简化计算,从设计上遵循高内聚低耦合的思想,经过漫长积累,业界普遍遵从的逻辑分层。初入数仓行业你可能会被这些东西限制住,但当你融会贯通时就会做到活学活用,代码无分层,心中有...原创 2021-08-20 11:40:26 · 3887 阅读 · 1 评论 -
实时数仓实践从0到1之路之kafka安装部署以及案例程序演示
STEP 1: GET KAFKADownload installation package:kafka https://mirrors.bfsu.edu.cn/apache/kafka/2.6.0/kafka_2.12-2.6.0.tgz$ tar -xzf kafka_2.12-2.6.0.tgz$ cd kafka_2.12-2.6.0STEP 2: START THE KAFKA ENVIRONMENT注: 本地环境Java 8 以上按正确的顺序启动以下命令:开原创 2020-10-26 15:08:13 · 260 阅读 · 0 评论 -
实时数仓实践从0到1之路之flink安装部署步骤
实时数仓在业界炒的火热,作为专注于数仓的博主来说不得不掌握。虽然博主对于实时数仓有着很深的理解,但一直在工作没有实践,不甘落后的我们决定自启项目。我们将从零到一搭建实时数仓,进行业务开发,数据分析,完成完整的实时数仓项目实践。我们将从本篇博客开始由浅入深的完成实时数仓落地。项目将放在git(持续更新)上:https://github.com/lanfz/flink-dw,期待你的关注或加入,喜欢的看官可以手动给个star!!!!环境准备:linuxflink https://...原创 2020-10-13 15:00:20 · 303 阅读 · 0 评论 -
DataWorks训练营第三讲-DataWorks数据建模介绍
模型工具:datablaudatamodelerERwinPowerDeign原创 2020-09-17 13:47:19 · 761 阅读 · 0 评论 -
数据仓库维度设计
维度设计:维度是维度建模的基础与灵魂,度量成为事实环境描述为维度维度的作用一般是查询约束、分类汇总以排序等如何获取?业务交谈中,按照sqlby中代理键 无业务含义自然键 有业务含义设计方法:1、维度唯一性,相同含义有且只允许有一个维度定义2、确定主维度3、确定相关维度4、确定维度属性:1、从主维度中生成或新建维度 2、从相关维度表中生成或新建维度特殊维度:行为维度:时间维度、快照维度、分组行为维度、复杂维度多值维度:数据发散、维表中多...原创 2020-09-14 19:11:36 · 307 阅读 · 0 评论 -
数据仓库事实表设计
事实表分为:事务事实表、周期快照事实、累计快照事实设计原则1,尽可能包含所有与业务过程相关的事实2,只选择与业务过程相关的事实3,分解不可加事实为可加的组件 比如订单的优惠率,应该分解为订单原价金额与订单优惠金额两个事实存储在事实表中。4,在选择维度和事实之前必须先声明粒度 (时间粒度:年季月周日时 类目粒度:各级类目、产品)5,在同一个事实表中不能有多重不同粒度的事实 金额与订单票数不能同时进入度量选入,会造成重复计算6,事实的单位要保持一致7,对事实的n...原创 2020-09-14 19:10:51 · 355 阅读 · 0 评论 -
数据仓库分层之ODS、CDM、ADS、DWD、DWS
三层设计:(参考阿里One Data)ODS操作数据层CDM:公共维度模型层 CDM划分为DWD 明细数据层 DWS汇总数据层ADS 应用数据层划分原则:1,高内聚和低耦合2,核心模型与扩展模型分离 (扩展模型定制化需求)3,公共处理逻辑下沉及单一4,成本与性能平衡5,数据可回滚(多次运行)6,一致性(上下层,相同名称含义一致)7,命名清晰,易理解...原创 2020-09-07 21:51:20 · 22323 阅读 · 0 评论 -
数据仓库规范定义
规范定义指以维度建模为理论基础,构建总线矩阵,划分和定义数据域、业务过程、维度、度量/原子指标、修饰类型、修饰词、时间周期、派生指标经验总结:1,数据字典 2,统一字段,性别、时间戳 3,字段池 4,简写描述 5,名词术语定义 6,建表规范 7,书写规范名词术语:数据域:指面向业务分析,将业务过程或者维度进行抽象的集合。其中,业务过程可以概括为一个个不可拆分的行为事件,在业务过程之下,可以定义指标;维度是指度量的环境,如买家下单事件,买家是维度。为保障整个体系的生命力,数据...原创 2020-09-02 22:04:23 · 1172 阅读 · 0 评论 -
数据仓库模型数据仓库四大模型
ER模型(BillInmon 比尔·恩门)提出 (大型企业底层构建)1,整体性考虑:全面了解企业业务和数据2,实施周期长3,建模人员的能力要求高步骤:高层模型:考虑所有上层主题,主题之间的关系中层模型:细化上层主题数据项物理模型:基于性能,存储,平台特点,数据合并,分区设计维度建模(RalphKimball 拉尔夫·金博尔)提出 (当前最主流的模型)星型:所有维表直接连接到事实表雪花型: 当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到...原创 2020-09-02 22:02:13 · 2493 阅读 · 0 评论 -
为什么要进行数仓建模???
数仓建模的好处1,性能:良好的模型能帮我们快速查询需要的数据,减少数据的IO吞吐2,成本:减少数据冗余、计算结果复用、从而降低存储和计算成本3,效率:改善用户使用数据的体验,提高使用数据的效率4,改善统计口径的不一致性,减少数据计算错误的可能性...原创 2020-09-02 21:59:21 · 1591 阅读 · 0 评论 -
数据治理知识架构图全网唯一
原创 2020-09-02 15:08:32 · 937 阅读 · 0 评论 -
Hive存储优化之Cluster By + Parquet
场景: 在业务场景中,会经常有join或者group by操作,这样会使数据打散,使Parquet无法达到最大的压缩比,使用Cluster By使相同的key聚合排序,达到Parquet最大的压缩比基础知识:要熟悉以下概念,简单介绍一下Distribute By:reduce阶段key值聚合分发Sort By:分组排序Cluster By =Distribute By + Sort ByParquet:列存储模式 + 列压缩优化示例:CREATE TABLE...原创 2020-07-11 15:23:32 · 477 阅读 · 0 评论 -
大数据数据仓库的架构与设计
数据仓库的概念 数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。特点 面向主题:数据仓库都是基于某个明确主题,仅需要与该主题相关的数据,其他的无关细节数据将被排除掉 集成的:从不同的数据源采集数据到同一个数据源,此过程会有一些ETL操作 随时间变化:关键数据隐式或显式的基于时间变化 信息本身相对稳定:数据装入以后一般只进行查询操作,没有传统数据库的增删...原创 2020-07-02 22:01:04 · 1452 阅读 · 0 评论 -
数据仓库设计基础思路
1,分层1,DWD(细节数据层或ods层),注意事项数据必须经过一定的清洗,过滤垃圾数据2,DWB(基础数层),表设计要符合范式设计,存放宽表,维表,部分临时表,建议临时表分库存放3,DWS(服务数据层或主题层),集市表 4,DWV (数据可视化层)报表2,表命名规范正式表:bas开头维表:dim宽表:agg临时表:seq分区:p时间(统计表用):y,m,w,d增...原创 2020-06-27 21:39:37 · 615 阅读 · 0 评论