数据仓库
文章平均质量分 59
RangeYan2012
欢迎大家与我交流技术问题!我的QQ:332478640
展开
-
数据仓库中的Inmon与Kimball架构之争
对于数据仓库体系结构的最佳问题,始终存在许多不同的看法,甚至有人把Inmon和Kimball之争称之为数据仓库界的“宗教战争”,那么本文就通过对两位提倡的数据仓库体系和市场流行的另一种体系做简单描述和比较,不是为了下定义那个好,那个不好,而是让初学者更明白两位数据仓库鼻祖对数据仓库体系的见解而已。 首先,我们谈Inmon的企业信息化工厂。 2000年5月,W.H.Inm转载 2017-02-16 12:14:27 · 1422 阅读 · 0 评论 -
数据仓库的源数据类型
数据仓库中集成了企业几乎所有的可以获取到的数据以用于数据分析和决策支持,当然也包括了我在网站分析的数据来源一文中所提到的所有数据。这些进入到数据仓库中的数据无外乎三种类型:结构化数据、半结构化数据和非结构化数据,它们经过转化后以某种形式统一地储存在数据仓库中,即通常说的ETL(Extract, Transform, Load,抽取、转换、装载)的过程。下面主要说一下这三种数据类型的区别,它们分转载 2017-02-13 10:44:56 · 1008 阅读 · 0 评论 -
数据仓库的基本架构
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用: 从图中可以看出数据仓库的转载 2017-02-13 10:52:46 · 529 阅读 · 0 评论 -
数据仓库的多维数据模型
可能很多人理解的数据仓库就是基于多维数据模型构建,用于OLAP的数据平台,通过上一篇文章——数据仓库的基本架构,我们已经看到数据仓库的应用可能远不止这些。但不得不承认多维数据模型是数据仓库的一大特点,也是数据仓库应用和实现的一个重要的方面,通过在数据的组织和存储上的优化,使其更适用于分析型的数据查询和获取。多维数据模型的定义和作用 多维数据模型是为了满足用户从多角度多层次进行数据转载 2017-02-13 11:07:03 · 755 阅读 · 0 评论 -
基于多维数据模型的OLAP
数据立方体----维度与OLAP前面的一篇文章——数据仓库的多维数据模型中已经简单介绍过多维模型的定义和结构,以及事实表(Fact Table)和维表(Dimension Table)的概念。多维数据模型作为一种新的逻辑模型赋予了数据新的组织和存储形式,而真正体现其在分析上的优势还需要基于模型的有效的操作和处理,也就是OLAP(On-line Analytical Processi原创 2017-02-13 11:18:22 · 5137 阅读 · 0 评论 -
数据仓库多维数据模型-星型模型 和 雪花模型
(星形模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据,按这种方式组织好数据我们就可以按照不同的维(事实表主键的部分或全部)来对这些事实数据进行求和(sum转载 2017-02-13 11:27:47 · 2400 阅读 · 0 评论 -
hive常用语法
目录一、关系运算:1.等值比较: =2.不等值比较: <>3.小于比较: <4.小于等于比较: <=5.大于比较: >6.大于等于比较: >=7.空值判断: IS NULL8.非空判断: IS NOTNULL9. LIKE比较: LIKE10. JAVA的LIKE操作: RLIKE11. REGEX...原创 2019-07-18 20:33:32 · 688 阅读 · 0 评论 -
hive常用函数
1、数据介绍首先我们产生我们的数据,使用spark sql来产生吧:val data = Seq[(String,String)]( ("{\"userid\":\"1\",\"action\":\"0#222\"}","20180131"), ("{\"userid\":\"1\",\"action\":\"1#223\"}","20180131"), ("{\"userid\":\"1...原创 2019-07-22 20:52:12 · 1080 阅读 · 0 评论