数据仓库
数据仓库相关内容
剁椒鱼不要头
这个作者很懒,什么都没留下…
展开
-
解决Flume数据采集中出现的问题:Expected timestamp in the Flume event headers, but it was null
使用Flume向HDFS采集数据时报错:java.lang.NullPointerException: Expected timestamp in the Flume event headers, but it was null解决方法是在flume的配置文件中添加时间戳配置项:a1.sinks.k1.hdfs.useLocalTimeStamp = true...原创 2020-03-19 11:01:42 · 1319 阅读 · 0 评论 -
数据仓库维度建模之事实表设计
一、DWD层明细事实表设计事实表有粒度大小之分,基于数据仓库层次架构,明细事实表一般存在于dwd层,该层事实表设计不进行聚合、汇总动作,仅做数据规范化、数据降维动作,将多个实事表的内容汇总到一张表中,同时数据保持业务粒度,确保数据信息无丢失。数据降维:为了提高模型易用性,将常规维度表中的常用属性数据冗余到相应的事实表中,从而在使用的时候避免维表关联的方式,既为数据降维。事实表的设计主要是...原创 2020-02-18 15:44:22 · 2533 阅读 · 2 评论 -
数据仓库维度建模之维表设计
1、代理键维度表中必须有一个能够唯一标识一行记录的列,通过该列维护维度表与事实表之间的关系,一般在维度表中符合条件的业务主键可以当作维度主键。然而当整合多个数据源的维度时,不同数据源的业务主键重复问题如何解决?涉及维度拉链表时,同一主体存在多条记录,业务键重复怎么解决?此时就需要引入代理键,代理键是由数据仓库处理过程中产生的、与业务本身无关的、唯一标识维度表中一条记录并充当维度表主键的列,...原创 2020-02-18 15:04:28 · 1525 阅读 · 0 评论 -
数据仓库中的ER实体模型和维度模型
一、数据仓库建模的意义一个公司中会有多个业务业务系统,比如:OA系统、订单系统、财务系统、人事系统、仓储系统等,因此需要按照一定的组织结构将所有数据都整合起来,形成一个仓储平台。如果只是通过工具把所有的数据同步到同一个平台,这个过程只是在堆积数据,不仅会因数据冗余造成存储空间的浪费,也会因各系统部数据的差异导致需求指标计算错误。二、ER实体模型在数据系统中,将事物抽象为实体(Entity)...原创 2020-02-16 16:34:30 · 6667 阅读 · 0 评论 -
关系型数据库设计的三大范式
一、函数依赖1、完全函数依赖假设X,Y是关系R的两个属性集合,X’是X的真子集,若存在X->Y,对于每个X’都有X’!->Y,则称Y完全函数依赖于X。即:通过AB能得出C,但是A或B单独得不出C,那么说C完全依赖于AB。举例:在上图中,通过学号和课程可以确定成绩,但是单用学号和课程无法确定成绩,也就是说成绩完全依赖于学号和课程2、部分函数依赖假设Y函数依赖于X,但不是完...原创 2020-02-15 14:46:01 · 529 阅读 · 0 评论 -
数据仓库的分层设计
一、数据仓库分层的意义1、明确数据结构数据仓库分层后,每层完成特定的功能,易于开发管理,如果使用过程中有表数据出错,也便于定位2、减少重复开发规范数据分层,创建可复用的中间层数据,能够减少重复计算,提高效率3、屏蔽原始数据将统计数据与业务系统数据解耦,避免受业务系统变更的影响二、数据仓库的层级1、ODS(operation data store) 原始数据层ODS层是贴近数据源...原创 2020-02-14 17:26:21 · 455 阅读 · 0 评论 -
基于大数据平台的数据仓库
1、数据库(Database)数据库是指将数据以一定的数据模型组织、描述和储存在一起的数据集合,具有尽可能小的冗余度、较高的数据独立性和易扩展性,且在一定范围内为多个用户共享2、数据仓库(DataWarehouse)数据仓库用于实现集成、稳定、反应历史变化、有组织有结构的数据集合,具有以下4个特点:(1)面向主题将企业各业务系统的数据进行综合归并,针对公司不同业务领域建立对应的主题。...原创 2020-02-14 13:41:58 · 1042 阅读 · 0 评论