![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
文章平均质量分 88
crazzy_lp
这个作者很懒,什么都没留下…
展开
-
数据仓库简介---概况
1、数据仓库的定义 数据仓库是一个面向主题的、集成的、稳定的、反映历史变化的、随着时间的流逝发生变化的数据集合。它主要支持管理人员的决策分析。 数据仓库收集了企业相关内部和外部各个业务系统数据源、归档文件等一系列历史数据,最后转化成企业需要的战略决策信息。面向主题:根据业务的不同而进行的内容划分;集成特性:因为不同的业务源数据具有不同的数据特点,当业务源数...原创 2015-05-19 12:11:49 · 328 阅读 · 0 评论 -
数据仓库建设:维度处理
1.代理关键字代理关键字一般是指维度表中使用顺序(序列)分配的整数值作为主键,也称为“代理建”代理关键字用于维度表和事实表的连接。在kimball的维度建模领域里,强烈推荐使用代理关键字的。在维度表和事实表的每一个连接中都应该使用代理关键字,而不应该使用自然关键字或者智能关键字(Smart Keys) 备注:数据仓库中的主键不应该是智能的,也就是说要避免通过主键的值就可以了...原创 2017-06-15 19:17:06 · 642 阅读 · 1 评论 -
数据仓库建设--概念
数据仓库:Data Warehouse(DW),一种信息系统的数据存储理论,此理论强调利用某些特殊数据存储方式,让所包含的数据,特别有利于分析处理,以产生有价值的信息并依此作决策。利用数据仓库方式所存放的数据,具有一但存入,便不随时间而更动的特性,同时存入的数据必定包含时间属性,通常一个数据仓库皆会含有大量的历史性数据,并利用特定分析方式,自其中发掘出特定信息。主要功能乃是将组织通过信息系统之在...原创 2016-03-31 11:42:15 · 190 阅读 · 0 评论 -
数据仓库建设--OLAP和数据立方体技术
OLAP工具通常使用数据立方体和多维数据模型,对汇总数据提供灵活的访问。例如:数据立方体能够存放多个数据维上的预计算的度量。用户可以提出数据上的OLAP查询,也可以以多维方式,通过诸如下钻或上卷这样的OLAP操作类探查数据。一、数据立方体计算:基本概念 为了提升OLAP查询效率,我们采用了完全立方体物化(预计算)与部分立方体物化。下面比较了这些策略。1、立方体物化:完...原创 2016-03-25 15:47:39 · 1772 阅读 · 0 评论 -
数据仓库建设--OLAP和数据立方体概念
一、OALP概述 数据立方体,他是一种用于OLAP以及OLAP操作(如上卷、下钻、切片和切块)的多维数据模型。数据立方体存储多为聚集信息。每个单元存放一个聚集值,对应于多维空间的一个数据点。每个属性都可能存在概念分层,允许在多个抽象层进行数据分析。 在最低抽象层创建的立方体称为基本方体。基本方体应当对应于感兴趣的个体实体,如sales或customer。换言之,最低层应当是对于分析...原创 2016-03-14 16:06:31 · 2531 阅读 · 0 评论 -
hive文件类型与压缩
1.概述 数据仓库在建设使用的过程中,主要消耗的资源包含:CPU、MEMORY、DISK三部分。数据仓库在计算过程中主要消耗CPU和Memory资源,当然也会消耗一些DISK资源用来存储计算过程中的临时结果。但是主要优化的方向,还是降低CPU和MEMORY的消耗,这方面主要依赖于模型设计的合理性,所以在模型设计阶段增加模型设计review的步骤,保证模型设计的合理性。数据仓...原创 2017-05-23 23:16:20 · 487 阅读 · 0 评论 -
hive小文件合并
hive仓库表数据最终是存储在HDFS上,由于Hadoop的特性,对大文件的处理非常高效。而且大文件可以减少文件元数据信息,减轻NameNode的存储压力。但是在数据仓库中,越是上层的表汇总程度就越高,数据量也就越小,而且这些表通常会有日期分区,随着时间的推移,HDFS的文件数目就会逐步增加。一、小文件带来的问题HDFS的文件包好数据块和元信息,其中元信息包括位置、大小、分块...原创 2017-05-21 22:15:28 · 1032 阅读 · 0 评论 -
数据仓库建设--数据仓库设计与使用
一、数据仓库设计的商务分析框架 “拥有数据仓库,商务分析者能够得到什么?”首先,拥有数据仓库可以通过提供相关信息,据此估计性能并作出重要调整,以帮助战胜其他竞争对手,可以提供竞争优势。第二,数据仓库可以提高企业生产力,因为它能够快速、有效的搜集准确描述组织机构的信息。第三,数据仓库有利于客户联系管理,因为它跨越所有商务、所有部门和所有市场,提供了顾客和商品的一致视图。最后,通过一致和...原创 2015-12-25 11:50:48 · 812 阅读 · 0 评论 -
数据仓库建设—维度建模
维度建模是DW/BI系统的核心,他是ETL系统的目标、数据库的结构、支持用户查询和制作报表的模型。建模要实现3个主要设计目标,分别是:能尽可能简洁的向用户展示需要的信息;能尽快返回查询结果给用户;能提供相关信息,以便精确的跟踪潜在的业务过程。 维度建模能使任何事情尽可能简单,但绝不是简化。在数据仓库和商业智能中,维度模型是给用户显示信息的首选结构,其比典型的原系统规范...原创 2015-07-29 17:36:26 · 1021 阅读 · 1 评论 -
数据仓库建设---建模案例【转】
前面介绍了一些抽象建模方法和理论,可能理解起来比较困难。所以,这里举一个例子说明数据仓库建模的大概规程。一、背景介绍 熟悉社保行业的人员知道,目前我们国家的社保主要分为养老、失业、工伤、生育、医疗保险和劳动力市场这6大块主要业务领域。在这6大业务领域中,目前的状况养老和事业的系统已经基本完善,已经有一部分数据开始互联网监测。而对于工伤、生育、医疗和劳动力市场这一块业务,...原创 2015-06-26 11:26:49 · 1675 阅读 · 0 评论 -
hive查询使用详解
常见的hive查询操作有:count、group by、order by、join、distribute by、sort by、clusrer by、union all一、常见的聚合函数1、count计数count(*) 所有值不全为NULL时,加1操作;count(1) 不管有没有值,只要有这条记录,值就加1count(col) col列里面的值为null,值不会加1,...原创 2016-05-02 22:57:29 · 470 阅读 · 0 评论 -
数据仓库建设---数据建模
首先我们先查看三个问题:①什么是数据模型;②为什么需要数据模型;③如何创建数据模型;一、什么是数据模型 数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。在这里,数据模型表现的抽象的实体和实体之间的关系,通过对实体和实体之间关系的定义和描述,来表达实际的业务中具体的业务关系。 数据仓库模型是数...原创 2015-05-28 11:45:25 · 1998 阅读 · 0 评论 -
转:Hive小文件合并
Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。而且这些表通常会按日期进行分区,随着时间的推移,HDFS的文件数目就会逐渐增加。小文件带来的问题 关于这个问题的阐述可以读一读Cloudera的这篇文章。简单来说,HDFS的文件元信...原创 2016-04-21 15:29:12 · 143 阅读 · 0 评论 -
hive数据存储组织
一般数据存储模式分为行存储、列存储以及混合存储。 行存储模式就是把一整行存在一起,包含所有的列,这是最常见的模式。这种结构能很好的适应动态的查询。但行存储模式有以下两点不足:当一行中有很多列,而我们只需要其中很少的几列时,我们也不得不把一行中所有的列读进来,然后从中抽取一些列。这样大大降低了查询执行的效率。基于多个列做压缩时,由于不同的列数据类型和取值范围不同,压缩...原创 2016-04-21 15:16:12 · 141 阅读 · 0 评论 -
hive中数据倾斜汇总
数据倾斜是指:map/reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点大很多,从而导致某几个节点迟迟运行不完。 在做Shuffle阶段的优化过程中,遇到了数据倾斜的...原创 2016-04-14 19:44:53 · 156 阅读 · 0 评论 -
数据仓库简介---数据集市
一、数据集市定义 数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。独立型数据集市:数据来自于操作型数据库,是为了满足特殊用户而建立的一种分析型环境。这种数据集市开发周期一般较短,具有灵活性,但是因为脱离了数据仓库,独立建立的数据集市可能会导致信息孤岛的存在,不能以全局的视角去分析数据...原创 2015-05-19 12:15:01 · 633 阅读 · 0 评论 -
数据仓库简介---设计模型
数据模型是指实体、属性、实体之间的关系对业务概念和逻辑规则进行统一的定义,命名和编码,主要描述企业的信息需求和业务规则,是业务人员和开发人员沟通的语言,是数据仓库设计工作的第一步。数据模型可以划分为概念模型、逻辑模型、物理模型。一、概念模型 从定义上来说,概念模型是最高层次的数据模型,反映了数据仓库的主要主题和重要业务之间的关系。一般来说,在进行数据仓库系统设计和开发之...原创 2015-05-19 12:13:50 · 193 阅读 · 0 评论 -
数据仓库简介---组成
数据仓库的组成部分有:针对数据源的分析、数据的迁移、数据的存储结构、元数据管理等。数据源分析:业务系统的源数据通常来自企业的内部信息和外部信息。内部信息指来自企业的生产数据和历史归档数据;而企业的生产数据有可能来自于不同的业务系统,如何将这些业务数据进行标准化,转换成数据仓库可以存储的数据,从而保证数据仓库中数据的一致性,这是数据源分析最重要的一步。(归档历史数据一般是指将大量的、不...原创 2015-05-19 12:12:57 · 2898 阅读 · 0 评论 -
原创:数据仓库架构和建设方法
1.数据仓库概要1.1.数据仓库起因 在建设数据仓库之前,数据散落在企业各部门应用的数据存储中,它们之间有着复杂的业务连接关系,从整体上看就如一张巨大的蜘蛛网:结构上错综复杂,却又四通八达。在企业级数据应用上单一业务使用方便,且灵活多变;但涉及到跨业务、多部门联合应用就会存在:①数据来源多样化,管理决策数据过于分散;②数据缺乏标准,难以整合;③数据口径不统一,可信度低;④缺乏数...原创 2017-06-23 11:27:10 · 4285 阅读 · 0 评论