大数据开发教程——企业级离线数据仓库项目实战开发

数据仓库

数据仓库简介

数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH。
数据仓库,是为企业所有级别的决 策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

在这里插入图片描述

数据库和数据仓库对比

1、面向业务的数据库常称作 OLTP (mysql,SQLServer,Oracle)系统,关注增删改事务操作,面向分析的数据仓库亦称为 OLAP(hive,hbase),关注查询分析OLAP的数据分析引擎 -> Kylin,Clickhouse,Doris,druid,等等…
在这里插入图片描述

数据中心

引用维基百科的解释: 数据中心,指用于安置计算机系统及相关部件的设施,例如电信和储存系统。一般它包含冗余和备用电源,冗余数据通信连接,环境控制(例如空调、灭火器)和各种安全设备。
数据中心,顾名思义就是数据的中心,是处理和存储海量数据的地方,英文全称为Data Center。用专业的名词解释,数据中心是全球协作的特定设备网络,用来在 internet 网络基础设施上传递、加速、展示、计算、存储数据信息。
一般来讲,数据中心主要有几大部分构成:机房、供配电系统、制冷系统、网络设备、服务器设备、存储设备、环境控制设备等。

数据平台

数据平台,一般叫做数据处理平台,不是一个专门被设计用来解决数据存储问题的,一个完整的数
据平台包括一些关键架构设计:
数据采集
数据存储
数据处理
数据流转
数据应用

数据湖

引用维基百科的解释:数据湖(英语:Data Lake),是指使用大型二进制对象或文件这样的自然格 式储存数据的系统。

数据湖从本质上来讲,是一种企业数据架构方法,物理实现上则是一个数据存储平台,用来集中化 存储企业内海量的、多来源,多种类的数据,并支持对数据进行快速加工和分析。从实现方式来看,目前Hadoop是最常用的部署数据湖的技术,但并不意味着数据湖就是指Hadoop集群。为了应对不同业务需求的特点,MPP数据库 + Hadoop 集群+传统数据仓库这种“混搭”架构的数据湖也越来越多出现在企业信息化建设规划中。

数据湖的就是原始数据保存区,虽然这个概念国内谈的少,但绝大部分互联网公司都已经有了。国内一般把整个HDFS+Hive叫做数据仓库(广义),即存放所有数据的地方。

数据湖和数据仓库的区别:

在这里插入图片描述

数据仓库应用前景
  • 数据化运营
  • 广告精准智能投放
  • 用户画像,精准营销
  • 数据挖掘、数据分析、人工智能、机器学习
  • 等等…
数仓构建流程

一个完整的数仓构建的流程:

01、需求分析
02、逻辑分析
03、ODS建模
04、数据仓库建模
05、数据源分析
06、数据集成
07、应用分析
08、数据展现
09、性能调优
10、元数据管理

需求分析

对企业领导层:

  • 领导层对数据仓库的期望是什么?
  • 领导层最关心哪几个指标?
  • 领导层希望以何种方式来看这些指标?
  • 领导层希望对这些指标进行哪些方面的比较?
  • etc…

对中间管理层:

  • 中间管理层对数据仓库的期望是什么?
  • 中间管理层希望以何种方式来看这些指标?
  • 平时领导层通常询问哪些指标?
  • 在这些指标中哪几个和此分析主题有关?
  • 中间管理层对下属的工作人员都考核哪些指标?
  • 哪几个指标与此分析主题有关?

对业务人员:

  • 业务人员对数据仓库的期望是什么?
  • 业务人员希望系统能提供哪些分析功能?
  • 业务人员希望以何种方式来看这些指标?
  • 业务人员希望对这些指标进行哪些方面的比较?

对技术人员:

  • 此主题所需要的数据源都取自哪些业务系统?
  • 与本主题有关的现有的业务系统的数据结构怎样?
  • IT人员对数据仓库的期望是什么?
  • IT人员在平时的工作中最关心的哪些指标?
逻辑分析

处理逻辑分析

  • 单一主题处理逻辑分析:从业务逻辑入手,分析各指标的组成关系
  • 多主题处理逻辑分析:综合考虑分析主题之间的逻辑关系

支撑数据分析

  • 单一主题支撑数据分析:单个主题分析所需要的原始支撑数据分析
  • 多主题支撑数据分析:所有主题统一考虑所需要的支撑数据分析

业务元数据建立

  • 使用者的业务术语所表达的数据模型、对象名和属性名;
  • 访问数据的原则和数据来源;
  • 系统所提供的分析方法及公式、报表信息。
ODS建模

逻辑模型:

  • 逻辑结构(完成实体的定义,各实体间的关系等)
  • 存储粒度(与源系统基本保持一致)
  • 查看数据粒度
  • 存储周期(立即删除、过一段时间删除或者是备份到其它介质上)

物理模型:

  • 数据的存储结构
  • 索引策略
  • 数据存放位置
  • 存储分配
  • 分区设计

数据仓库建模
数据仓库逻辑模型:

  • 划分粒度层次
  • 确定数据分割策略
  • 确定存储周期
  • 定义关系模式
数据源分析

数据源范围

  • 包括数据源逻辑范围和物理范围
  • 数据源格式

理解各数据源的格式,确定统一的格式,制定相应的转换规则

  • 数据更新频率
  • 数据量
  • 数据质量

数据集成

  • 直接抽取:主要面向业务数据库
  • 文件收集:主要面向日志文件,通过Flume做文件方面的数据收集
  • 数据的整合
应用分析
  • 分析方法:OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP
    ROLAP:实时在线分析
    MOLAP:多维度在线分析
    HOLAP:混合分析
  • 预定义报表
    对单报表可以直接从数据库中取出数据进行分析展现。
    同一主题的多个报表间有较强的关联,有些数据会在多个报表中以不同方式出现。因此,可以对多个报表进行整合。
  • 即席查询
    基于单个表的即席查询
    基于多个事实表关联的即席查询
  • 数据挖掘
    根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。

戳我了解更多大数据开发学习路线

  • 1
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值