大数据之数据仓库

一,数据仓库简介

1.1  什么是数据仓库

       数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。

        数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展的特点并可在一定范围内为多个用户共享。

        常用的数据库有 MySQL、ORACLE、SQL Server 等。

1.2  什么是数据仓库

        数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从和数据库中获取信息的问题。

        数据仓库的特征在于面向主题、集成性、稳定性和时变性,用于支持管理决策。

        数据仓库存在的意义在于对企业的所有数据进行汇总,为企业各个部门提供统一的、规范的数据出口。

       面向主题:数据仓库中的数据是按照一定的主题域进行组织的,每一个主题对应一个宏观的分析领域。数据仓库排除对于决策无用的数据,提供特定主题的简明视图。

       集成的:企业内不同业务部门数据的完整集成。

对于企业内所有数据的集成要注意一致性(假设财务系统中对于性别使用 F/M,而 OA 系统对性别使用 A/B,这就是数据不一致,如果想搭建企业级的数据仓库,需要数据具有一致性)。

        稳定的:数仓里不存在数据的更新和删除操作。

        变化的:数仓里会完整的记录某个对象在一段时期内的变化情况。

数据仓库的目标是实现集成、稳定、反映历史变化有组织有结构的存储数据的集合

        如上图所示,一个公司可能有多个业务系统,而数据仓库就是将所有的业务系统按照某种组织架构整合起来,形成一个仓储平台,也就是数仓。

ODS—脱敏/清洗—DWD—汇总—DWS—汇总/宽表—DM

        ODS(Operational Data Store):操作数据存储层,往往是业务数据库表格的一对一映射,将业务数据库中的表格在 ODS 重新建立,数据完全一致;

        DWD(Data Warehouse Detail):数据明细层,在 DWD 进行数据的清洗、脱敏、统一

化等操作,DWD 层的数据是干净并且具有良好一致性的数据;mapreduce

        DWS(Data Warehouse Service):服务数据层(公共汇总层),在 DWS 层进行轻度汇总,为 DM 层中的不同主题提供公用的汇总数据;

        DM(Data Market):数据集市层,DM 层针对不同的主题进行统计报表的生成;

1.3  OLTP与OLAP

        OLTP(On-Line Transaction Processing)即联机事务处理 ,也可以称面向交易的处理系统,它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询、修改。用户较为关心操作的响应时间、数据安全性、完整性和并发支持的用户数量等问题。传统的数据库系统作为数据管理的主要手段,主要用OLTP。

        OLTA(On-Line Analytical Processing)即联机分析处理,一般针对某些主题的历史数据进行分析,支持管理决策。

OLTP与OLTA的异同

 二、数据仓库基本理论

2.1  关系模式范式理论概述

       关系型数据库设计时,遵照一定的规范要求,目的在于降低数据的冗余性和数据的一致性,目前业界范式有:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)、第五范式(5NF)。

       范式的标准定义是:符合某一种级别的关系模式的集合,表示一个关系内部各属性之间的联系的合理化程度。通俗地讲,范式可以理解为一张数据表的表结构所符合的某种设计标准的级别

使用范式的根本目的是:减少数据冗余,尽量让每个数据只出现一次,获取数据时通过 join 拼接出最后的数据

2.2  一范式

一范式(1NF):域应该是原子性的,即数据表的每一列都是不可分割的原子数据项。

注:域就是列的取值范围,比如性别的域就是(男,女

数据表中的所有列保持其原子性,不可再分。

       很明显如上图所示的表格设计是不符合第一范式的,商品列中的数据不是原子数据项,是可以进行分割的,因此对表格进行修改,让表格符合第一范式的要求,修改结果如下图所示

        实际上,1NF是所有关系型数据库的最基本要求,你在关系型数据库管理系统(RDBMS),例如 SQL Server,Oracle,MySQL 中创建数据表的时候,如果数据表的设计不符合这个最基本的要求,那么操作一定是不能成功的。也就是说,只要在 RDBMS 中已经存在的数据表,一定是符合 1NF 的。

2.3  二范式

  • 1
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值