非结构化数据的相关知识

一.出现原因

信息社会化时代,各行各业在处理相关业务的过程中,都累计了海量的数据信息,随着IT应用的普及和发展,传统的纸质资料存储方式在不断缩减,更多的采用电子信息的存储方式存放在计算机中。这些信息数据常被分为两类:结构化数据和非结构化数据。结构化数据即行数据,可以用二维表结构来逻辑表达:而非结构化数据,类似于文本、办公文档、各类报表、图片、图像、音频/视频等等,格式多样的特点使得非结构化数据不方便使用二维表结构来实现数据的表达。
在不断爆炸式增长的的互联网数据中,非结构化数据的增长格外明显。网络用户在浏览信息的同时,产生了海量的形形色色的新数据,在这些数据中,像文档、图片、音乐、视频这一类结构不固定的数据占比非常大。

云环境下的数据存储技术通常分为两类:关系数据库技术和分布式存储技术。关系数据库经过将近50年的发展,技术已相对成熟,被广泛应用于各行各业。关系数据技术具有高可靠性、事务一致性、读写实时性以及支持复杂的SQL查询和多表连接查询等特性,但是,关系数据库的表结构固定,字段长度有限,不适合存储诸如XML、Word等非结构化数据。而分布式存储技术强调海量数据存储、高性能数据并发读写、高可用性、强伸缩性等特点,不存在像传统关系型数据库中的关联事物处理,能够很好地支持非结构化数据的存储,满足高并发读写需求,具有很好的扩展性。

二.定义

非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

三.非结构化数据的特点

1.存储方式不统一。通常情况下,用户各自管理自己的非结构化数据,包括结构化的数据管理、FTP以及传统的纸质资料管理等多种方式;

2.非结构化数据格式多样化,如Word、Excel、PDF、JPEG图等等;

3.业务流程多样,非结构数据处理涉及的流程主要有上传下载、打印扫描、系统内部流传等;

4.非结构化数据难以标准化,相对结构化数据,也更难理解,所以在存储、检索、发布以及利用上需要更加智能的IT技术,比如内容保护、知识挖掘、智能检索、海量存储等;

5.非结构化数据遍布于异构系统中,信息量非常大,尤其是多媒体数据,从信息整合的角度分析,信息需要集成。

四.主要的存储方法

1.文件系统存储方式:

文件系统存储方式通过文件系统直接把数据存储在文件服务器中。数据资源以文件的形式存放在计算机的特定目录下,仅仅通过人工对文件夹进行简单的分类,所以数据的存储通常是无序的。需要访问数据时,应用程序直接通过文件存储路径读取文件。早启的计算机对数据存储要求简单,文件系统可以满足数据的管理要求。随着计算机技术的发展,计算机的应用领域扩展,数据不仅类型变的多样,数据量也迅速积累、增长,文件系统提供的数据存储能力已经无法满足应用的需求。文件系统存储方式无法更好的解决根据属性对数据进行索引、查找、排序的问题,通常需要程序进行定制。
 

2.数据库存储方式:

关系数据库自出现以来,功能不断发展。目前大多数应用系统中的非结构化数据都是以二进制的格式存储在关系型数据库的BLOB字段中。用户直接向数据库发送请求进行数据操作。但是存储在BLOB字段中有一些缺点:一是非结构化数据文件大,随着数据量的不断增大,会导致关系型数据库存储量迅速膨胀,影响数据库性能,进而使得整个应用系统的性能下降;二是各应用系统之间相对封闭和独立,其他应用无法共
享相关文档资料。关系型数据库是针对结构化数据的处理而产生的,无法很好地满足现在网络环境下对于非结构化数据的处理要求,例如
数据的全文检索就显得力不从心。多媒体数据包含多种信息类型,数据格式的特殊性带来了数据存储结构和存取处理的差别。多媒体数据库随需要应运而生。多媒体数据库结合了数据库技术和多媒体技术,继承了传统关系数据库的优点,其作为一种全新的数据系统,可有效实现多媒体数据的存储检索。非结构化数据库是基于网络应用的新型数据库,作为结构化数据库的补充,可以表达复杂的嵌套,支持更多的数据类型。关系数据库限制了数据长度且改写不方便,而非结构化数据库支持重复字段,变长记录可由若干重复的字段组成,每个字段又可由若干可重复的子字段组成。非结构化数据库概括而言,就是字段数和字段长度可变的数据库,在处理非结构化信息方面有着传统关系型数据库无法与之相比的优势。

3.数据库与文件系统结合的存储方式:

数据库与文件系统相结合的模式是将非结构化数据以文件的形式存放在计算机中,数据文件的存储路径存放在数据库
中。此种方式下非结构化数据源文件存放在的文件系统中,便于数据的浏览、传递和更改。而非结构化数据文件的属性则采用数据库中的数据表字段进行表述,方便数据的检索、分类、查找,有序地存储了数据文件。内容管理系统便是数据库与文件
系统相结合模式的典型应用。内容的含义比数据更为广泛,“内容”强调对象,可以是任何结构的数据类型,不仅包含了结构化数据、非结构化信息,还涉及到知识。可以说,内容是一个比数据、文档和信息更加全面的概念,是对所有结构化数据、非结构化数据及信息的聚合。内容管理侧重于管理半结构化和非结构化数据。在研究数据存储方式的基础上,内容管理还致力于对象的处理过程,例如收集、存储、检索、分析、更新、传递等,以便将内容能够及时准确的传递到正确的地点和用户。内容管理是数据管理新的发展方向。非结构化数据存储技术与数据库的发展密切相关,更与文件系统及其存储技术的的发展密不可分。设计无限大的存储空间、无限制的I/O带宽和更高的性价比的理想存储系统是缓
解存储压力的总体目标。云存储技术发展结合各种存储技术应用的特点,在吞吐量、冗余、容错、读写分布、数据划分、负载均衡等特性方面进行技术提升,并综合多种存储技术适应复杂的不同种类的数据存储需求。

 

参考资料:

胡珊珊. 面向云存储的非结构化数据存储研究与应用[D].广东工业大学,2014.

王存宇,李珂,许锦才,王翔.面向云存储的非结构化数据存储研究[J].计算机时代,2015(05):13-15+18.

 

  • 4
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值