基于Hadoop生态圈的数据仓库实践 —— 环境搭建(三)

三、建立数据仓库示例模型         Hadoop及其相关服务安装配置好后,下面用一个小而完整的示例说明多维模型及其相关ETL技术在Hadoop上的具体实现。 1. 设计ERD         操作型系统是一个销售订单系统,初始时只有产品、客户、订单三个表,ERD如下图所示。         多维数据仓库包含有一个销售订单事实表,产品、客户、订单、日期四个维度表,ERD如下...
阅读(12061) 评论(2)

基于Hadoop生态圈的数据仓库实践 —— 环境搭建(二)

二、安装Hadoop及其所需的服务 1. CDH安装概述 CDH的全称是Cloudera's Distribution Including Apache Hadoop,是Cloudera公司的Hadoop分发版本。有三种方式安装CDH: . Path A - 通过Cloudera Manager自动安装 . Path B - 使用Cloudera Manager Parcels或Packa...
阅读(2288) 评论(1)

基于Hadoop生态圈的数据仓库实践 —— 环境搭建(一)

一、Hadoop版本选型         主流的Hadoop生态圈有Apache、Cloudera、HortonWorks、MapR几个不同版本,其中Cloudera、HortonWorks、MapR这几个是开源产品的商业分发版,其价值主要体现在两个方面:(1)对Hadoop生态圈中各种各样的组件进行兼容性测试并打包;(2)提供工具简化Hadoop集群的安装和建立。         Had...
阅读(2265) 评论(3)

基于Hadoop生态圈的数据仓库实践 —— 概述(二)

二、在Hadoop上实现数据仓库 (大部分翻译自《Big Data Warehousing》)         数据仓库技术出现很长时间了,现在为什么要从传统数据库工具转为使用Hadoop呢?答案就是最引人关注的流行词汇 —— 大数据。对许多组织来说,传统关系数据库已经不能够经济地处理他们所面临的数据量。而Hadoop生态圈就是为了能够廉价处理大量数据的目的应运而生的。下面看看大数据是怎么定义...
阅读(8877) 评论(4)

基于Hadoop生态圈的数据仓库实践 —— 概述(一)

一、什么是数据仓库         一种被广泛接受的数据仓库定义是Bill Inmon在1991年出版的《Building the Data Warehouse》一书中所提出的 —— 数据仓库是一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持决策。它主要的目标是分析和处理数据,和传统的操作型事务处理有很大区别。 1. 操作型系统和分析型系统         操作型系统完成...
阅读(4202) 评论(4)

基于Hadoop生态圈的数据仓库实践 —— 目录

第一部分:概述 一、什么是数据仓库 1. 操作型系统和分析型系统 2. ETL 3. 数据需求 4. 多维数据模型基础 二、在Hadoop上实现数据仓库 1. 大数据的定义 2. 为什么需要分布式计算 3. Hadoop基本组件 4. Hadoop生态圈的其它组件 5. Hadoop生态圈的分布式计算思想 6. 与传统数据仓库架构对应的Hadoop生态圈工具 第二...
阅读(1634) 评论(1)

CDH 5.7.0 离线安装详解

一、环境 1. IP和主机名,所有主机都可以连接互联网 172.16.1.101 cdh1 172.16.1.102 cdh2 172.16.1.103 cdh3 172.16.1.104 cdh4 2. 硬件资源 每个机器:CPU4核、内存8G、硬盘100G 3. 操作系统 CentOS release 6.4 (Final) 64位 二、配置 1. 安装前准备...
阅读(4331) 评论(0)
    个人资料
    • 访问:1297425次
    • 积分:17326
    • 等级:
    • 排名:第553名
    • 原创:253篇
    • 转载:20篇
    • 译文:5篇
    • 评论:155条
    博客专栏
    文章分类
    最新评论