数仓
文章平均质量分 60
架构森林之旅
知名企业高级攻城狮及架构师,有学习相关问题可随时交流哦!
展开
-
数据治理(一)
数据中台,数据治理必不可少原创 2022-06-11 09:47:13 · 238 阅读 · 1 评论 -
数仓建模篇(二)
1.星型模型与OLAP多维数据库 在关系型库管理系统中实现的维度模型称为星型模型,因为其结构类似星型结构 在多维数据库环境中实现的维度模型通常称为联机分析处理 2.用于度量的事实表 维度模型中的事实表存储组织机构业务过程事件的性能度量结果 尽量将来与同一个业务过程的底层度量结果存储于一个维度模型中 允许多个组织的业务用户访问同一个单一的集中式数据仓库 事实表的每一行对应一个度量事件 注:物理世界的每一个度量事件与.原创 2022-04-27 09:32:28 · 1827 阅读 · 0 评论 -
Hive优化及解析
1.explain 一般用于查看表的具体stage流程,根据流程判断自我推测2.explain dependency 快速排查分区 具体场景 快速排出因为读取不到相应分区的数据而导致任务数据输出异常 理清表的输入,帮助理解程序的运行,特别是有助于了理解子查询,多表连接的依赖输入(on,where) 不同写法,最后的实现也不会一样3.explain authorization 了解数据源、数据输出以及访问用户和操作4...原创 2022-04-23 17:01:44 · 1734 阅读 · 0 评论 -
数据建模规范
一、建模设计参考规范1、建模原则 高内聚和低耦合 核心模型与扩展模型分离 公共处理逻辑下沉及单一 成本与性能平衡 数据可回滚 一致性 命名清晰、可理解表命名需清晰、一致,表名需易于使用方理解 2、建模评价指标 完善度 汇总数据能直接满足多少查询需求 跨层引用比列(业务方直接从dwd、dws、ads层直接拿到想要的数据) 快速相应业务方的需求 复用度 模型被读取并原创 2022-04-19 15:16:59 · 1840 阅读 · 0 评论 -
数仓概览导向
启蒙时代 BI诞生于上世纪90年代,数据转化为知识,帮助企业经营分析决策。 零售行业的门店管理,如果使单个门店利润最大化 分析每个商品的销售数据和库存信息 为每个商品制定合理的销售采购计划,滞销降价,畅销预测,提前采购 大数据量的范围查询 数仓之父=》比尔 恩门=》数仓是在企业管理决策中面向主题、集成、与时间相关,不可修改的数据集合 订单表和会员表 ..原创 2022-04-15 15:18:19 · 64 阅读 · 0 评论 -
快速入门数据仓库
总结: 概念 是一个用于存储、分析、报告的数据系统 构建面向分析的集成化环境,分析结果为企业提供决策 数仓本身不生产数据,数据来源于外部系统 数仓本身也不消费数据,其结果开放给各个外部应用使用 所以称为仓库而不是工程 为什么会有数仓? 为了分析数据而来,分析结果给企业决策提供支撑 操作性记录的保存 公司下面有多个BU,业务线等等,都有各自的业务系统,记录销售、经营、原创 2022-04-09 17:09:44 · 906 阅读 · 0 评论 -
阿里大数据之路问道(一)
数据同步数据同步技术更通用的含义是不同系统间的数据流转,有多种不同的应用场景。主数据库与备份数据库之间的备份,主系统与子系统之间的数据更新,同类型不同集群数据库之间的数据同步。还有不同地域、不同数据库类型之间的数据传输交换,比如分布式业务系统域数据仓库系统之间的数据同步。数据同步的基础数据类型多种多样,结构化数据、半结构化数据、非结构化数据。同步方式可以分为三种:直连同步、数据文件同步和数据库日志解析同步 直连同步 ODBC\JDBC 数据文件同步原创 2022-04-07 11:38:42 · 2692 阅读 · 0 评论 -
数仓建模篇(一)
数据仓库数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义一直被广泛接受:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。数据架构的原则1、底层业务原创 2022-04-06 14:33:50 · 2585 阅读 · 0 评论