数据仓库系列(一)数据仓库的特点与架构分类--数仓与数据库究竟有什么区别??

数据仓库理论介绍:

数据仓库是一个面向主题的,集成的,非易失的且随时间变化的数据集合

一:数据仓库的四大特点:

1):面向主题:
  • 主题(Subject) 是在较高层次上企业信息系统中的数据进行综合,归类和分析利用的一个抽象概念。
  • 每一个主题基本对应一个宏观的分析领域
  • 它是对应企业中某一宏观分析领域所涉及的分析对象
提取主题:
  • 一个面向事务处理的商场数据库系统,其数据模式:
    • 采购子系统:
      • 订单
      • 订单细则
      • 供应商
    • 销售子系统:
      • 顾客`
      • 销售
    • 库存管理子系统:
      • 领料单
      • 进料单
      • ​ 库存
      • 库房
    • 人事管理子系统:
      • 员工
      • 部门
2):集成
  • 集成性是指数据仓库中数据必须是一致的
    • 数据仓库的数据是从原有的分散的多个数据库,数据文件和数据段中抽取来的
    • 数据来源可能既有内部数据又有外部数据
  • 集成方法
    • 统一:消除不一致的现象
    • 综合:对原有数据进行综合和计算
3):非易失
  • 数据仓库中的数据是经过抽取而形成的分析型数据
    • 不具有原始性
    • 主要供企业决策分析之用
    • 执行的主要是查询操作,一般情况下不执行更新操作
    • 一个稳定的数据环境也有利于数据分析操作和决策的制订
4):随时间变化
  • 数据仓库以维的形式对数据进行组织,时间维是数据仓库很重要的一个维度
    • 不断增加新的数据内容
    • 不断删去旧的数据内容
    • 更新与时间有关的综合数据

二:数据仓库和数据库的区别

数据库数据仓库
本质数据的集合数据的集合
定位事务处理OLTP数据分析OLAP
面向群体前端用户管理人员
操作增删改查查询
数据粒度事件记录维度
表结构3NF星型、雪花

三:OLTP和OLAP的区别:

  • 联机事务处理OLTP
    • On-line Transaction Processing
    • OLTP是传统的关系型数据库的主要应用
对比属性OLTPOLAP
读特性每次查询只返回少量记录对大量记录进行汇总
写特性随机、低延时写入用户的输入批量导入
使用场景用户,Java EE项目内部分析师,为决策提供支持
数据表征最新数据状态随时间变化的历史状态
数据规模GBTB到PB

四:有哪些数据仓库架构?

lnmon架构–范式建模:
ER建模:

lnmon提出–

从全企业的高度设计的一个3NF模型

Inmon模型将模型划分为三个层次

  • ERD–Entity Relationship Diagram 实体关系图层
  • DIS–Data Item Set 数据项集层
  • PM–Physical Model 物理模型
Data Vault建模:

Dan Linstedt提出–

ER模型的衍生,为了实现数据的整合

强调可审计的基础数据层

基于主题将企业数据结构化组织

Data Vault组成:
  • Hub:企业的核心业务实体
  • Link:代表Hub之间的关系
  • Satellite:是Hub的详细描述内容
Anchor建模:

Lars.Ronnback提出–

一个高度可扩展的模型,核心是所有的扩展知识添加而不是修改。

模型规范升级成6NF,变成K-V结构化模型

Anchor模型组成:
  • Anchors:代表业务实体,且只有主键
  • Attributes:类似Satellite,更规范,全部K-V化
  • Ties:Anchors之间的关系,类似Link
  • Knots:代表可能在多个Anchors中公用的属性的提炼
Kimball架构–维度建模:

在这里插入图片描述

Kimball提出–

是一种自上而下的建模方式,从分析决策的需求出发构建模型,关注如何更快速的完成需求分析,

维度建模数据仓库模型构建过程:
选择业务流程
  • 确认哪些业务处理流程是数据仓库应该覆盖的
  • 记录方式
    • 纯文本
    • 使用业务流程建模标注(BPMN)方法
    • 使用同一建模语言(UML)
声明粒度
  • 确定事实中表示的是什么
  • 选择维度和事实前必须声明粒度
  • 建议从原始粒度数据开始涉及
  • 不同的事实可以有不同的粒度
确认维度
  • 说明事实表的数据从哪里采集来的
  • 典型的维度都是名词
  • 维度表存储了某一维度的所有相关数据
确认事实
  • 识别数字化的度量,构成事实表的记录
  • 和系统的业务用户密切相关
  • 大部分事实表的度量都是数字类型
混合型架构:

在这里插入图片描述


现在我在的公司主流使用Kimball的维度建模方式,两种架构各有优缺点,根据不同需求使用不同的架构完成。

数据仓库的解决方案:

数据采集
  • flume,sqoop,logstash,datax
数据存储
  • mysql,hdfs,hbase,redis,mongoDB
数据计算
  • hive,tez,spark,flink,storm,impala
数据可视化
  • tableau,echarts,superset,quickbi,datav
任务调度
  • oozie,azkaban,crontab
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
人们在日常生活中经常会遇到这样的情况:超市的经营者希望将经常被同时购买的商品放在一起,以增加销售;保险公司想知道购买保险的客户一般具有哪些特征;医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助……对于以上问题,现有信息管理系统中的数据分析工具无法给出答案。因为无论是查询、统计还是报表,其处理方式都是对指定的数据进行简单的数字处理,而不能对这些数据所包含的内在信息进行提取。随着信息管理系统的广泛应用和数据量激增,人们希望能够提供更高层次的数据分析功能。为此,数据仓库应运而生。   数据仓库的概念及特点   数据仓库概念始于本世纪80年代中期,首次出现是在号称“数据仓库之父”William H.Inmon的《建立数据仓库》一书中。随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善,在总结、丰富、集中多行企业信息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。   数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。因此,在技术上人们习惯于从工作过程等方面来分析,并按其关键技术部份分为数据的抽取、存储与管理以及数据的表现等三个基本方面。   ⑴数据的抽取:数据的抽取是数据进入库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。   ⑵存储和管理:数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。   ⑶数据的表现:数据表现实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面,而不仅仅是在网上发布数据。   提到数据仓库,人们难免会想到仅有一字之差的数据库,那么,数据仓库和我们经常提到的数据库有哪些区别呢?为什么要使用数据仓库呢?

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值