实现数据开放共享的方法

最新推荐文章于 2024-08-17 08:42:54 发布

fanyzidb

最新推荐文章于 2024-08-17 08:42:54 发布

阅读量1.7w

点赞数 4

分类专栏：大数据

本文链接：https://blog.csdn.net/fanyzidb/article/details/54692653

版权

实现数据开放共享的方法

当前之所以存在严重的信息孤岛问题、数据难以开放共享，根本原因在于当前的信息系统设计的理论体系有问题。信息孤岛犹如爱滋病，一旦产生就不可医治，BI、EAI、EDI、ETL、ESB只是减缓症状的方法，治标不治本。本文的方法是在系统的设计阶段实现数据的开放共享，从根本上避免信息孤岛问题的产生。火车是以标准的钢轨为基础避免了铁路交通孤岛而实现了互联互通，本文借鉴了此方法。

第1章概要.. 3

第2章 信息孤岛的根源在于关系数据库理论有问题.. 4

2.1 当前的信息孤岛为什么是不治之症.. 4

2.2 关系数据库理论是以服务器为中心的孤岛型理论.. 5

2.3 当前的信息系统软件开发模式的特点.. 6

2.4 从技术上分析关系数据库理论所存在的问题.. 7

2.5 关系数据库理论是单机时代的产物，不适应互联网时代.. 8

第3章 利用万能数据结构表实现数据开放共享.. 10

3.1 火车的互联互通及机械零部件的互换性对信息系统设计的启示：标准化.. 10

3.2 数据结构的标准化：万能数据结构.. 11

第4章 两种完全不同的软件设计模式的对比.. 15

4.1 万能数据结构表是一门全新的数据库理论.. 15

4.2 数据的标准化、数据的完整性.. 15

4.3 独立数据库与关系数据库理论的对比.. 19

第5章 独立数据库简介.. 21

5.1 独立数据库的技术特点：是一种数据优化、查询技术.. 22

5.2 如何证明“万能数据结构表”是万能的.. 24

5.3 独立数据库的一项重要任务就是根除关系.. 28

第1章概要

当前的数据之所以难以开放共享，根本原因在于当前的信息系统设计的理论体系有问题。实现数据开放共享、互联互通可以借鉴火车的设计思路。我国的火车之所以可以在全国各地互联互通，是因为我国各地的钢轨都是标准的，各种火车是以标准的钢轨为基础而设计。

我国的钢轨与前苏联的钢轨是不相同的，我国的火车要经过前苏联国家时，就要换车轮，换一次车轮需要80分钟。当前的各种信息系统中的数据全都是异构的，犹如钢轨的宽度各不相同，当前的系统之间互联互通是通过转换数据结构的方式而实现，犹如换车轮。BI、EAI、EDI、ETL、ESB等都是通过“换车轮模式”而实现互联互通。

铁路交通只是利用钢轨的标准化这种非常简单的方法就从根本上避免了铁路交通孤岛问题的产生。本文解决信息孤岛问题的方法也很简单，本文是通过对数据及数据结构的标准化而从根本上避免信息孤岛问题的产生，犹如火车通过钢轨的标准化而实现互联互通。本文中的方法与当前的信息系统设计的理论体系完全不同，是一种全新的信息系统设计模式。

当前设计各种信息系统的特点：数据及数据结构完全由设计人员自己决定，因此各信息系统中的数据完全是异构的，这犹如全国各地都是分别设计自己的火车，各地的火车钢轨都是不相同的。

本文借鉴了铁路交通的设计思路：在设计各种信息系统时，必须按标准的数据及标准的数据结构为基础而设计，不允许设计人员随意地定义数据及数据结构。万能数据结构表就是标准的数据结构表。万能数据结构表可以存贮各种各样的结构化数据。如果各个信息系统中的数据及数据结构都是标准的，那么数据就可以象火车一样在各个信息系统之间互联互通。

当前的实现数据开放共享、互联互通的方法可称作是“换车轮模式”。

本文实现数据开放共享的方法所采有的模式可称作是“标准化模式”。“标准化模式”是以“独立数据库”为基础而设计的。“独立数据库”是一种与关系数据库理论完全不同的全新的数据库理论。

【作者：269779216@qq.com】

第2章信息孤岛的根源在于关系数据库理论有问题

在信息化领域，关系数据库独占鳌头！当前的大部分信息系统都是以关系数据库为基础。本文之所以要介绍独立数据库，是因为以关系数据库理论为基础而设计的信息系统都不能有效地实现数据的开放共享、互联互通。

在介绍独立数据之前，非常有必要研究清楚以关系数据库为基础的信息系统为什么都是孤岛型的系统。也可以为什么只有抛弃关系数据库理论才能从根本上解决信息孤岛问题。

2.1 当前的信息孤岛为什么是不治之症

通过下面的分析、计算就会发现当前的信息孤岛是不治之症。这是由当前的信息孤岛的实际情况及解决信息孤岛的方式所决定的。

当前的实际情况：当前的各种信息系统都是孤岛型的，因为设计人员在开发各种信息系统时都没有考虑数据的互联互通问题，没有通用的数据接口。如果需要与某个系统实现数据的互联互通，则需要开发专用的“点对点式的数据接口”。如果与N个系统实现数据的互联互通，那么至少要开发N个数据接口。

用现有的技术为什么不能根除信息孤岛？从理论上而言，利用现有技术可以通过转换数据结构的方式而实现任意两个信息系统之间的特定数据的互联互通、开放共享，然而由于全球的各种信息系统的数量超过千万，全球所产生的数据超过数万亿条，而且信息系统及数据还在不断地增加，面对如此海量的异构的、不标准的数据，“转换数据结构”的方法所花的成本非常高、不可承受。因此，当前的信息孤岛只能在局部进行缓解，而不能整体上得到根治。利用现有技术设计信息系统时，每增加一个信息系统，就增加了一个孤岛。

两个系统之间的互联互通约需要1个人月的工程量；三个系统之间的互联互通约需要（3-1）+（3-2）=3个人月的工程量；四个系统之间的互联互通约需要（4-1）+（4-2）+（4-3）=6个人月的工程量；N个信息系统之间的互联互通约需要（（N-1）+(N-2)+(N-3)+……+3+2+1）个人月的工程量。由计算公式可看出，随着信息系统的数量的增多，系统之间的互联互通的工程量十分巨大，无法承受。因此，当前的信息孤岛是不治之症。这与当前的事实是相符的，自从关系数据库理论产生的40多年来，世界各地的信息孤岛问题都未能得到有效解决。

用关系数据库理论开发信息系统，会产生无穷无尽的数据结构，也会产生无穷无尽的不标准、不规范的数据。对于用关系数据库理论所设计的信息系统而言，随着信息系统的数量的增加，信息孤岛问题也将会更加严重。也可以说关系数据库理论是信息孤岛的发源地，人们虽说想尽各种方法来解决信息孤岛让数据互联互通，然而信息孤岛问题不降反增。

信息孤岛一旦产生，就不可根治。因为当前的信息系统中的数据的数据结构是不标准的、数据是不标准的，数据与数据库系统密不可分，数据与应用程序密不可分，数据只有在原系统中才是有意义的，一旦脱离了原来的系统，就会变成无意义的数据。当前解决信息孤岛实现互联互通的方法（例如BI、EAI、EDI、ETL、ESB等等）都是通过转换数据结构（换车轮模式）、开发点对点式的数据接口而实现，然而这种方法只能治标，不能治本。利用现有技术无法开发出通用的数据接口。

2.2 关系数据库理论是以服务器为中心的孤岛型理论

关系数据库理论建立在封闭的局域网的基础之上：“所有的数据都处于一个完全封闭的系统中”。关系数据库理论中没有互联互通的内容，也没有数据接口的内容。关系数据库理论是一种以自我为中心的孤岛型理论：“我只处理我的数据，不处理你的数据，你只处理你的数据，你也不能处理我的数据，你我之间没关系。”关系数据库理论的创始人根本就没有考虑互联互通的问题，关系数据库理论是一种仅适用于单机、局域网的数据库理论。

互联互通的信息系统没有中心：“我要处理我的数据，还要处理你的数据和他的数据，你要处理你的数据，也要处理我的数据和他的数据，你我他之间的数据要互联互通。”

关系数据库理论是“独立王国”的孤岛型理论，关系数据库设计人员是“独立王国”的国王，国王就是法律，数据类型、数据结构全由国王任意定义。互联互通需要的是没有国王的民主社会的民主型理论，数据库的设计人员不再是国王而是民主社会中的一员，他的一言一行（数据、数据结构）都必须受到民主社会的“法律、行为规范（通信协议）”的制约。问题是当前的关系数据库理论中没有结构化数据互联互通的通信协议。

关系数据库的问题：由设计人员任意定义数据和数据结构，各方的数据和数据结构各不相同。因此，数据的接收方无法直接把数据存贮到自己的数据库中。关系数据库中的数据是一种有结构的数据，然而对方又没有这样的结构，因此，数据发送到对方的数据库之后就是不可识别的数据。只要是用关系数据库理论所设计的信息系统，其数据必定不可能在各个数据库之间互联互通，必定是孤岛型系统。

30多年来关系数据库在结构化数据处理方面独占鳌头，为全球的信息化建设立下了汗马功劳，是信息化社会的大功臣！当前之所以会出现严重的信息孤岛问题、互联互通问题、数据难挖掘问题，与关系数据库密不可分，关系数据库是信息孤岛问题的罪魁祸首！人们曾花费巨额资金，希望通过BI、EAI、ETL、EDI、ESB等技术来解决信息孤岛，实现数据的互联互通，然而全球的大量事实表明，效果很不理想。

2.3 当前的信息系统软件开发模式的特点

当前的信息系统软件开发模式是：先设计出数据结构各不相同的系统，然后再通过转换数据结构而实现互联互通，犹如先设计出“结构各不相同的车轮”的火车，然后再换车轮互通，这种软件开发模式可称作是“换车轮模式”、“后ETL模式”。用本文中的方法设计软件时，其开发模式是：各信息系统必须按照标准的、统一的“事物信息表”而设计信息系统，犹如按标准的钢轨而设计火车，这种软件开发模式可称作是“标准化模式”、“先ETL模式”，按这种模式所开发出的信息系统实现数据的互联互通、开放共享交换非常容易，在技术上不存在信息孤岛问题。

在小数据时代，各行各业的信息系统中的数据及数据结构基本上都是不标准、不规范的，各个信息系统中的数据完全由系统的设计人员任意定义，因此，各信息系统中的数据都是异构的、不标准的，结果导致了非常严重的信息孤岛问题。不同的信息系统要实现互联互通、共享交换，就必须通过转换数据结构的方式来实现。然而面对全球数千万个以上的信息系统，数万亿条以上的异构的、不标准的数据，要实现各个信息系统之间的互联互通、共享交换，用传统的转换数据结构的方法就非常困难，甚至可以说根本不可能在可承受的时间内实现。现有软件开发模式的根本错误在于“数据治理的先后次序”搞反了。当前的BI、EAI、ETL、EDI等技术都是在“疾病”产生了之后再“治疗疾病”。

在大数据时代，应该是在设计各种信息系统之前就对各行各业的数据进行“数据治理”，并形成各行各业的国际数据标准、国家数据标准、行业数据标准，而不是等到数千万个软件系统产生了无比海量的不标准、不规范的数据之后再治理数据。