结构化数据、半结构化数据、非结构化数据

最新推荐文章于 2022-07-22 19:14:00 发布

JepsonWong

最新推荐文章于 2022-07-22 19:14:00 发布

阅读量2.7k

点赞数 1

分类专栏：大数据文章标签：大数据结构化数据半结构化数据非结构化数据

大数据专栏收录该内容

15 篇文章 1 订阅

订阅专栏

1、概述

结构化数据：（即行数据，存储在数据库里，可以用二维表结构来逻辑表达实现的数据）。

非结构化数据：不方便用数据库二维逻辑表来表现的数据即称为非结构化数据，包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。

非结构化数据库是指其字段长度可变，并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库，用它不仅可以处理结构化数据（如数字、符号等信息）而且更适合处理非结构化数据（全文文本、图象、声音、影视、超媒体等信息）。

半结构化数据：就是介于完全结构化数据（如关系型数据库、面向对象数据库中的数据）和完全无结构的数据（如声音、图像文件等）之间的数据，HTML文档就属于半结构化数据。它一般是自描述的，数据的结构和内容混在一起，没有明显的区分。

2、数据模型

结构化数据：二维表（关系型）

半结构化数据：树、图

非结构化数据：无

结构化数据：先有结构、再有数据

半结构化数据：先有数据，再有结构

3、数据分类

在做一个信息系统设计时肯定会涉及到数据的存储，一般我们都会将系统信息保存在某个指定的关系数据库中。我们会将数据按业务分类，并设计相应的表，然后将对应的信息保存到相应的表中。比如我们做一个业务系统，要保存员工基本信息：工号、姓名、性别、出生日期等等；我们就会建立一个对应的staff表。

但不是系统中所有信息都可以这样简单的用一个表中的字段就能对应的。

结构化数据：就像上面举的例子。这种类别的数据最好处理，只要简单的建立一个对应的表就可以了。

非结构化数据：像图片、声音、视频等等。这类信息我们通常无法直接知道他的内容，数据库也只能将它保存在一个BLOB字段中，对以后检索非常麻烦。一般的做法是，建立一个包含三个字段的表（编号 number、内容描述 varchar(1024)、内容 blob）。引用通过编号，检索通过内容描述。现在还有很多非结构化数据的处理工具，市面上常见的内容管理器就是其中的一种。

半结构化数据：这样的数据和上面两种类别都不一样，它是结构化的数据，但是结构变化很大。因为我们要了解数据的细节所以不能将数据简单的组织成一个文件按照非结构化数据处理，由于结构变化很大也不能够简单的建立一个表和他对应。

本文主要讨论针对半结构化数据存储常用的两种方式。先举一个半结构化的数据的例子，比如存储员工的简历。不像员工基本信息那样一致每个员工的简历大不相同。有的员工的简历很简单，比如只包括教育情况；有的员工的简历却很复杂，比如包括工作情况、婚姻情况、出入境情况、户口迁移情况、党籍情况、技术技能等等。还有可能有一些我们没有预料的信息。通常我们要完整的保存这些信息并不是很容易的，因为我们不会希望系统中的表的结构在系统的运行期间进行变更。

4、储存方式

（1）化解为结构化数据

这种方法通常是对现有的简历中的信息进行粗略的统计整理，总结出简历中信息所有的类别同时考虑系统真正关心的信息。对每一类别建立一个子表，比如上例中我们可以建立教育情况子表、工作情况子表、党籍情况子表等等，并在主表中加入一个备注字段，将其它系统不关心的信息和已开始没有考虑到的信息保存在备注中。

优点：查询统计比较方便。

缺点：不能适应数据的扩展，不能对扩展的信息进行检索，对项目设计阶段没有考虑到的同时又是系统关心的信息的存储不能很好的处理。

（2）用XML格式来组织并保存到CLOB字段中

XML可能是最适合存储半结构化的数据了。将不同类别的信息保存在XML的不同的节点中就可以了。

优点：能够灵活的进行扩展，信息进行扩展式只要更改对应的DTD或者XSD就可以了。

缺点：查询效率比较低，要借助XPATH来完成查询统计，随着数据库对XML的支持的提升性能问题有望能够很好的解决。