数据仓库
数据仓库简介
数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH。
数据仓库,是为企业所有级别的决 策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据库和数据仓库对比
1、面向业务的数据库常称作 OLTP (mysql,SQLServer,Oracle)系统,关注增删改事务操作,面向分析的数据仓库亦称为 OLAP(hive,hbase),关注查询分析OLAP的数据分析引擎 -> Kylin,Clickhouse,Doris,druid,等等…
数据中心
引用维基百科的解释: 数据中心,指用于安置计算机系统及相关部件的设施,例如电信和储存系统。一般它包含冗余和备用电源,冗余数据通信连接,环境控制(例如空调、灭火器)和各种安全设备。
数据中心,顾名思义就是数据的中心,是处理和存储海量数据的地方,英文全称为Data Center。用专业的名词解释,数据中心是全球协作的特定设备网络,用来在 internet 网络基础设施上传递、加速、展示、计算、存储数据信息。
一般来讲,数据中心主要有几大部分构成:机房、供配电系统、制冷系统、网络设备、服务器设备、存储设备、环境控制设备等。
数据平台
数据平台,一般叫做数据处理平台,不是一个专门被设计用来解决数据存储问题的,一个完整的数
据平台包括一些关键架构设计:
数据采集
数据存储
数据处理
数据流转
数据应用
数据湖
引用维基百科的解释:数据湖(英语:Data Lake),是指使用大型二进制对象或文件这样的自然格 式储存数据的系统。
数据湖从本质上来讲,是一种企业数据架构方法,物理实现上则是一个数据存储平台,用来集中化 存储企业内海量的、多来源,多种类的数据,并支持对数据进行快速加工和分析。从实现方式来看,目前Hadoop是最常用的部署数据湖的技术,但并不意味着数据湖就是指Hadoop集群。为了应对不同业务需求的特点,MPP数据库 + Hadoop 集群+传统数据仓库这种“混搭”架构的数据湖也越来越多出现在企业信息化建设规划中。
数据湖的就是原始数据保存区,虽然这个概念国内谈的少,但绝大部分互联网公司都已经有了。国内一般把整个HDFS+Hive叫做数据仓库(广义),即存放所有数据的地方。
数据湖和数据仓库的区别:
数据仓库应用前景
- 数据化运营
- 广告精准智能投放
- 用户画像,精准营销
- 数据挖掘、数据分析、人工智能、机器学习
- 等等…
数仓构建流程
一个完整的数仓构建的流程:
01、需求分析
02、逻辑分析
03、ODS建模
04、数据仓库建模
05、数据源分析
06、数据集成
07、应用分析
08、数据展现
09、性能调优
10、元数据管理
需求分析
对企业领导层:
- 领导层对数据仓库的期望是什么?
- 领导层最关心哪几个指标?
- 领导层希望以何种方式来看这些指标?
- 领导层希望对这些指标进行哪些方面的比较?
- etc…
对中间管理层:
- 中间管理层对数据仓库的期望是什么?
- 中间管理层希望以何种方式来看这些指标?
- 平时领导层通常询问哪些指标?
- 在这些指标中哪几个和此分析主题有关?
- 中间管理层对下属的工作人员都考核哪些指标?
- 哪几个指标与此分析主题有关?
对业务人员:
- 业务人员对数据仓库的期望是什么?
- 业务人员希望系统能提供哪些分析功能?
- 业务人员希望以何种方式来看这些指标?
- 业务人员希望对这些指标进行哪些方面的比较?
对技术人员:
- 此主题所需要的数据源都取自哪些业务系统?
- 与本主题有关的现有的业务系统的数据结构怎样?
- IT人员对数据仓库的期望是什么?
- IT人员在平时的工作中最关心的哪些指标?
逻辑分析
处理逻辑分析
- 单一主题处理逻辑分析:从业务逻辑入手,分析各指标的组成关系
- 多主题处理逻辑分析:综合考虑分析主题之间的逻辑关系
支撑数据分析
- 单一主题支撑数据分析:单个主题分析所需要的原始支撑数据分析
- 多主题支撑数据分析:所有主题统一考虑所需要的支撑数据分析
业务元数据建立
- 使用者的业务术语所表达的数据模型、对象名和属性名;
- 访问数据的原则和数据来源;
- 系统所提供的分析方法及公式、报表信息。
ODS建模
逻辑模型:
- 逻辑结构(完成实体的定义,各实体间的关系等)
- 存储粒度(与源系统基本保持一致)
- 查看数据粒度
- 存储周期(立即删除、过一段时间删除或者是备份到其它介质上)
物理模型:
- 数据的存储结构
- 索引策略
- 数据存放位置
- 存储分配
- 分区设计
数据仓库建模
数据仓库逻辑模型:
- 划分粒度层次
- 确定数据分割策略
- 确定存储周期
- 定义关系模式
数据源分析
数据源范围
- 包括数据源逻辑范围和物理范围
- 数据源格式
理解各数据源的格式,确定统一的格式,制定相应的转换规则
- 数据更新频率
- 数据量
- 数据质量
数据集成
- 直接抽取:主要面向业务数据库
- 文件收集:主要面向日志文件,通过Flume做文件方面的数据收集
- 数据的整合
应用分析
- 分析方法:OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP
ROLAP:实时在线分析
MOLAP:多维度在线分析
HOLAP:混合分析 - 预定义报表
对单报表可以直接从数据库中取出数据进行分析展现。
同一主题的多个报表间有较强的关联,有些数据会在多个报表中以不同方式出现。因此,可以对多个报表进行整合。 - 即席查询
基于单个表的即席查询
基于多个事实表关联的即席查询 - 数据挖掘
根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。