数据仓库相关概念

1 、 数据仓库,英文名称为 Data Warehouse ,可简写为 DW DWH 。数据仓库,是为企
业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,
出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改
监视时间
成本
质量以及控制 进、监视时间、成本、质量以及控制。
2 OLTP On-Line Transaction Processing 联机事务处理过程 (OLTP) ,也称为面向交
易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,
并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。
3 OLAP :在线分析处理 (OLAP Online Analytical Processing) ,为业务决策提供数据
分析。 OLAP 系统允许用户一次分析来自多个数据库系统的数据库信息。
4 、 数据集市( Data Mart ),也叫数据市场,为满足特定的部门或者用户需求,按照多
维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分
析需求的数据立方体
5 、 维度表:维度表是维度属性的集合,是分析问题的一个窗口。是人们观察数据的特
定角度,是考虑问题时的一类属性,属性的集合构成一个维。
6 、 事实表:事实表是数据仓库结构中的中央表,它包含联系事实与维度表的数字度量
值和键。事实表包含描述业务(例如产品销售)内特定时间的数据。
7 ETL :是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取
extract )、转换( transform )、加载( load )至目的端的过程。
8 、 结构化数据:结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形
式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据
的属性是相同的。
9 、 半结构化数据:半结构化数据是结构化数据的一种形式,它并不符合关系型数据库
或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以
及对记录和字段进行分层。因此,它也被称为自描述的结构。
10
非结构化数据:就是没有固定结构的数据。各种文档、图片、视频 / 音频等都属
于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制
的数据格式。
11
Json :是一种轻量级的数据交换格式
12 、提前浏览了解数据仓库小案例 - 海外电子商务网 Lazada ,网址: Lazada.com.my
13 、维度建模( dimensional modeling )是数据仓库建设中的一种数据建模方法,将数
据结构化的逻辑设计方法
14 、多维矩阵:多维矩阵是一种新的理论 , 是一种新的处理多指标问题的方法和体系。
15 ACID 原则是数据库事务正常执行的四个,分别指原子性、一致性、独立性及持久性
事务的原子性 (Atomicity) :是指一个事务要么全部执行,要么不执行,也就是说一个
事务不可能只执行了一半就停止了。比如你从取款机取钱,这个事务可以分成两个步
骤: 1 划卡, 2 出钱。不可能划了卡,而钱却没出来。这两步必须同时完成,要么就不
完成。
事务的一致性 (Consistency) :是指事务的运行并不改变数据库中数据的一致性。例
如,完整性约束了 a+b=10 ,一个事务改变了 a ,那么 b 也应该随之改变。
独立性 (Isolation ):事务的独立性也有称作隔离性,是指两个以上的事务不会出现交
错执行的状态。因为这样可能会导致数据不一致。
持久性 (Durability ):事务的持久性是指事务执行成功以后,该事务对数据库所作的
更改便是持久的保存在数据库之中
不会无缘无故的回滚 更改便是持久的保存在数据库之中,不会无缘无故的回滚。
16 ERP :是企业资源计划 (Enterprise Resource Planning ) 的简称,是指建立在信息技
术基础上,集信息技术与先进管理思想于一身,以系统化的管理思想,为企业员工及决
策层提供决策手段的管理平台。
17 SCM(Supply Chain Management) 供应链管理,就是对企业供应链的管理,是对供
应、需求、原材料采购、市场、生产、库存、定单、分销发货等的管理,包括了从生产
到发货、从供应商的供应商到顾客的每一个环节。
18 External Data : 外部数据源
19 ODS: (Operational Data Store) 是一个面向主题的、集成的、可变的、当前的细节数
据集合,用于支持企业对于即时性的、操作性的、集成的全体信息的需求。常常被作为
数据仓库的过渡,也是数据仓库项目的可选项之一。
20 Staging Area: 暂存区域,临时区域,通常在很多传统集中式版本控制系统中,只有
两个空间用来管理你的数据,一个是你的 working copy (工作区),另一个便是
datastore (版本库),然而在 Git 中,引入了 staging area index )这一概念,我们可以
把它看做一个 码头 ,你来决定其中的哪些改变可以被 运走
21 HDFS (Hadoop Distributed Filesystem), Hadoop 分布式文件系统,简单理解就
是多台机器组成的一个文件系统。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值