数据架构 Inmon

目录

第一章 企业数据

1.1 企业数据

1.2 数据基础设施

1.3 分界线

1.4 企业数据统计图

1.5 企业数据分析

1.6 数据的生命周期

1.7 数据简史

第二章 大数据

2.1 大数据简史

2.2 大数据是什么

2.3 并行处理

2.4 非结构化数据

2.5 重复型非结构化数据的语境化

2.6 文本消歧

2.7 分类法

第三章 数据仓库

3.1数据仓库简史

3.2 集成的企业数据

3.3 历史数据

3.4 数据集市

3.5 作业数据储存

3.6 对数据仓库的误解

第四章 Data Valut

4.1 Data Vault简介

4.2 Data Vault建模介绍

4.3 Data Vault架构介绍

4.4 Data Vault方法论介绍

4.5 Data Vault实施介绍

第五章 作业环境

5.1 作业环境简史:P135

5.2标准工作单元

5.3 面向结构化环境的数据建模

5.4 元数据

5.5 结构化数据的数据治理

第六章 数据架构

6.1数据架构简史

6.2 大数据/已有系统的接口

6.3 数据仓库/作业环境接口

6.4数据架构——一种高层视角

第七章 重复型分析

7.1 重复型分析-必备基础

7.2 分析重复型数据

7.3 重复型分析

第八章 非重复型分析

8.1 非重复型数据

8.2 映射

8.3 分析非重复型数据


第一章 企业数据

1.1 企业数据

1.1.1 企业的全体数据

全体数据划分为结构化数据和非结构化数据,结构刷数据是可预见、经常出现的数据结构。通常包括记录、属性、键、索引,可通过DBMS进行管理。非结构化数据是不可预见,没有可以被计算机识别的结构。

1.1.2 非结构化数据的划分

非结构化数据可以分为重复型和非重复型。二者以结构和形态区分开来。

1.1.3 业务相关性

重复型非结构化数据具备少量业务价值,而非重复型非结构化数据的业务价值高一些。

1.1.4 大数据

大数据包括重复型和非重复型非结构化数据

1.1.5 分界线

二者分界线即数据处理方式不同

1.1.6 大陆分水岭

1.1.7 业务数据全貌

企业数据结构化数据
非结构化数据重复型
非重复型

1.2 数据基础设施

1.2.1 重复型数据的两种类型

重复型结构化数据;重复型非结构化数据

1.2.2 重复型结构化数据

重复型结构化数据逻辑上按业务分割,包括键、属性、索引,多储存于DBMS

1.2.3 重复型大数据

重复型大数据逻辑上大包围一个数据串,指按童谣分隔符分割,多储存于HDFS的数据

1.2.4 两种基础设施

DBMS复杂、繁冗;HDFS简单、精炼

1.2.5 优化了什么

1.2.6 对比两种基础设施

实务中线上和线下的区别

1.3 分界线

1.3.1 企业数据分类

1.3.2 分界线

数据处理方式形成以Hadoop和文本消歧两个种类(焦点不同)

1.3.3 重复型非结构化数据

分布式、并行的、低成本处理大数据

1.3.4 非重复型非结构化数据

通过文本ETL等手段抽取特征,本质是抽取结构化的特征

1.3.5 不同的领域

 

1.4 企业数据统计图

1.5 企业数据分析

1.6 数据的生命周期

进入 -> 捕获 -> 组织 -> 储存 -> 集成 -> 使用 -> 归档 -> 丢弃

(数据有效性随时间递减)(数据量随时间递增)

1.7 数据简史

线带和穿孔卡片 -> 磁带 -> 磁盘储存器 -> 数据库管理系统 -> 耦合处理器 -> 在线事务处理 -> 数据仓库 -> 并行数据管理 -> Data vault -> 大数据

 

第二章 大数据

2.1 大数据简史

2.1.1 打个比方-占领制高点

就大数据而言,取胜的标准时所能管理的最大数据量

2.1.2 占领制高点(见下)

2.1.3 IBM360带来的标准化

第一个运行于标准化软件之上的DBMS,且能管理大量的数据

2.1.4 在线事务处理

能够管理数据库,且配备数据通信功能,能实现在线事务处理

2.1.5 Teradata的出现和大规模并行处理

大规模并行处理(MPP)技术可处理大量数据

2.1.6 随后到来的Hadoop和大数据

从储存、调度、计算实现大数据生态

2.1.7 IBM和Hadoop

2.1.8 控制制高点

2.2 大数据是什么

大数据具有数据量大、速度快和多样性

2.2.1 另一种定义

高数据量存储、廉价储存、并行处理、非结构化

2.2.2 大数据量

2.2.3 廉价储存器

2.3.4 罗马人口统计方法(MPP)

2.2.5 非结构化数据(Map、Json、XML)

2.2.6大数据中的数据

结构化、重复和非重复非结构化数据

2.2.7 重复型数据中的语境

从非结构的重复型数据中抽取结构化粒度数据

2.2.8 非重复型数据

2.2.9 非重复型数据中的语境

从非重复型数据中迭代、抽取结构化数据

2.3 并行处理

通过MPP算法解析处理重复型非结构化数据

2.4 非结构化数据

人们通常基于结构化数据进行解析,但企业数据中多为非结构化数据,其他也具有很大的业务价值。其中重复型非结构化数据可通过MPP算法进行大规模并行处理 ,非重复型非结构化数据需要根据语境化做词法和愈发的向量化梳理成标准化结构数据

2.5 重复型非结构化数据的语境化

标准的ETL,加载重复型数据用MPP算法做解析处理,充足输出为标准化结构数据

2.6 文本消歧

文本ETL,加载非重复型非结构化数据,进行语境语法分类和映射处理,抽象为标准化数据后输出。

2.7 分类法

数据主题分类以支持非结构化数据的处理

 

第三章 数据仓库

3.1数据仓库简史

在线应用程序处理形成数据,通过抽取程序逐渐形成蛛网系统(竖井式系统),维护挤压成本上升,为提升数据完整性,数据仓库应运而生。在大数据时代,非结构化数据同结构化数据被ETL处理加载到ODS,经过数仓处理为应用层数据集市供OLAP使用。

3.2 集成的企业数据

竖井式将导致命名、字段类型、编码方式不同,并影响数据产出时间和口径问题。因此需要ETL技术来约束命名、字段类型和编码方式。将整洁、标准、干净的数据导入ODS形成粒度化数仓模型。

3.3 历史数据

合理设计链路的数据生命周期,重要历史数据冷备

3.4 数据集市

粒度话数据正式数据仓库的核心所在。粒度话数据将维度和事实连接在一起形成维度模型。高粒度数据抽象为数据集市可KPI指标。

3.5 作业数据储存

集成历史数据可抽象到同一场所,形成ODS层。ODS为易失的、为粒度话的快照。ODS可分为实时、小时、天级更新模型。数仓与ODS层可双向流动。

3.6 对数据仓库的误解

与在线高性能事务处理分离,通常不具备完整性;任务大规模负载调度,实时与离线分离

 

第四章 Data Valut

4.1 Data Vault简介

Data Vault包括建模、方法论、交媾、实施四个方面:

用散列键进行维度建模;针对需求和数据进行迭代来提供服务;全数据ETL、ODS、数仓、WM、OLAP、BI;个过程抽象进行迭代建设

4.2 Data Vault建模介绍

DV模型是一个面向细节的、历史追溯的并且唯一链接的规范化表集,区分主题域。以中新表连接卫星表组成,通过不同业务键来连接。底层表重新进行散列处理,提高吞吐防止倾斜。

4.3 Data Vault架构介绍

衔接RDMS和非结构数据能ETL进入数据仓库的ODS层,粒度话数据仓库建模,支持分析和报场景,将各个缓解解耦提升健壮性。

4.4 Data Vault方法论介绍

与规范敏捷开发不同DV2以CMMI为方法论。CMMI以过程管理为核心,通过迭代来达到最优化的目的。例如共同按时维护Wiki,记录业务需求会议。

4.5 Data Vault实施介绍

只有当过程、设计和实现都是基于模式和数据驱动的,才能达到最高层级的优化

 

第五章 作业环境

5.1 作业环境简史:P135

5.2标准工作单元

例如在线事务处理的核心在于良好的相应时间需要考虑高并发下负载和处理实现。数仓侧体现在计算的调度权衡上。用服务等级协议SLA实现服务管理。

5.3 面向结构化环境的数据建模

以实体关系图、数据项集、物理数据库设计

实体关系图反应最高层抽象,即主题实体

数据项集即设计维度关系模型,明确粒度和键

物理数据库设计即设计表事实逻辑和物理结构、索引和键规范

5.4 元数据

典型元数据包括表名、属性、储存、键、索引等信息。元数据一般储存在DBMS中。用户可用元数据做分析和逻辑对齐

5.5 结构化数据的数据治理

数据治理为了治理不良或冗余数据使之规划或者干净。治理主要应用于粒度化数据。应该编制数仓规范文档。

 

第六章 数据架构

6.1数据架构简史

数据物理表现形式:纸带、磁带、磁盘、并行磁盘和大数据

数据逻辑联系:结构化、层级网络、关系型、Data Vault

数据内部格式:结构化、非结构化(重复型、非重复型)

数据文件结构:文件、数据库(在线、ODS数仓(维度模型、数据集市))

6.2 大数据/已有系统的接口

6.3 数据仓库/作业环境接口

6.4数据架构——一种高层视角

架构的特征之一就是提供一种高层视角

 

第七章 重复型分析

7.1 重复型分析-必备基础

个人理解可看作理性化。首先做出假设,然后做启发式处理(无法知道之后的迭代过程),对处理结果做提炼和筛选做数据子集。产生分析结果后可做重复的例行化。

7.2 分析重复型数据

日志即最重要重复型数据,将明细和汇总数据存于数仓中。大数据元数据通常和数据存在一起,例如Parquet。高层次元数据存在数据库中。

7.3 重复型分析

数据分为企业内部和外部数据。通常数据要做通用标准化,并对安全性做管控。数据还要定期归档。

 

第八章 非重复型分析

8.1 非重复型数据

文本ETL有很多方法;内联语境化、同形异议消解、缩略语消解、否定分析、数据标注、日期和标准化、联想式词处理、停用词处理、提取单词词根、关键词处理、形似度算法、分词向量化

8.2 映射

8.3 分析非重复型数据

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值