非结构化数据

 

相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XMLHTML、各类报表、图像和音频/视频信息等等。

非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。   非结构化WEB数据库主要是针对非结构化数据而产生的,与以往流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理,在处理连续信息(包括全文信息)和非结构化信息(包括各种多媒体信息)中有着传统关系型数据库所无法比拟的优势。   结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据  非结构化数据,包括所有格式的办公文档、文本、图片、XMLHTML、各类报表、图像和音频/视频信息等等   所谓半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。   数据模型:   结构化数据:二维表(关系型)   半结构化数据:树、图   非结构化数据:无   RMDBS的数据模型有:如网状数据模型、层次数据模型、关系型   其他:   结构化数据:先有结构、再有数据   半结构化数据:先有数据,再有结构   随着网络技术的发展,特别是InternetIntranet技术的飞快发展,使得非结构化数据的数量日趋增大。这时,主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而,数据库技术相应地进入了后关系数据库时代,发展进入基于网络应用的非结构化数据库时代。   我国非结构化数据库以北京国信贝斯(iBase)软件有限公司的iBase数据库为代表。IBase数据库是一种面向最终用户的非结构化数据库,在处理非结构化信息、全文信息、多媒体信息和海量信息等领域以及Internet/Intranet应用上处于国际先进水平,在非结构化数据的管理和全文检索方面获得突破。它主要有以下几个优点:   

(1)Internet应用中,存在大量的复杂数据类型,iBase通过其外部文件数据类型,可以管理各种文档信息、多媒体信息,并且对于各种具有检索意义的文档信息资源,如HTMLDOCRTFTXT等还提供了强大的全文检索能力。   

(2)它采用子字段、多值字段以及变长字段的机制,允许创建许多不同类型的非结构化的或任意格式的字段,从而突破了关系数据库非常严格的表结构,使得非结构化数据得以存储和管理。   

(3)iBase将非结构化和结构化数据都定义为资源,使得非结构数据库的基本元素就是资源本身,而数据库中的资源可以同时包含结构化和非结构化的信息。所以,非结构化数据库能够存储和管理各种各样的非结构化数据,实现了数据库系统数据管理到内容管理的转化。   

(4)iBase采用了面向对象的基石,将企业业务数据和商业逻辑紧密结合在一起,特别适合于表达复杂的数据对象和多媒体对象。   

(5)iBase是适应Internet发展的需要而产生的数据库,它基于Web是一个广域网的海量数据库的思想,提供一个网上资源管理系统iBase Web,将网络服务器(WebServer)和数据库服务器(Database Server)直接集成为一个整体,使数据库系统和数据库技术成为Web的一个重要有机组成部分,突破了数据库仅充当Web体系后台角色的局限,实现数据库和Web的有机无缝组合,从而为在Internet/Intranet上进行信息管理乃至开展电子商务应用开辟了更为广阔的领域。   

(6)iBase全面兼容各种大中小型的数据库,对传统关系数据库,如OracleSybaseSQLServerDB2Informix等提供导入和链接的支持能力。   

    通过从上面的分析后我们可以预言,随着网络技术和网络应用技术的飞快发展,完全基于Internet应用的非结构化数据库将成为继层次数据库、网状数据库和关系数据库之后的又一重点、热点技术。 

云计算与非结构化数据

  据IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。非结构化数据,顾名思义,是存储在文件系统的信息,而不是数据库。据报道指出:平均只有1%-5%的数据是结构化的数据。如今,这种迅猛增长的从不使用的数据在企业里消耗着复杂而昂贵的一级存储的存储容量。如何更好的保留那些在全球范围内具有潜在价值的不同类型的文件,而不是因为处理它们却干扰日常的工作?当然你可以采购更多的就地存储设备,但这总会有局限性的。云存储是越来越多的IT公司正在使用的存储技术。下面的分段解释了一些关于存储在云中的商业信息的关键要点。 员工面临新挑战 数据如何被管理?   当企业参与到全球经济竞争中,IT员工面临着让分布在全球的员工能够有效访问重要数据的新挑战。全球分布的团队需要共享对大型的文件和数据集的读写访问,但这显然增加了数据管理的复杂性。另外不断地采用数据同步功能和精确度的问题都影响企业的工作效率。   云存储业务外包 降低成本是否可行?   随着基于云存储服务项目的增长,各种类型的企业都有能力将数据存储业务外包。利用这些外包服务,企业能大幅减少存储基础架构成本,在减少人工管理非结构化数据所需时间的同时增加了存储的灵活性,这在以前的企业中从未被使用过。另外,云服务也带来了巨大的经济效益。   云存储有多大 价格是否更合理?   大多数服务提供商对于云存储的定价都是根据实际使用了多少存储容量而决定的。支付多少钱就享用多少容量。因此不再需要存储架构师,也不再需要安装和管理存储设备。   如果你使用200TB的存储容量,你就只需支付200TB存储的这部分钱即可。如果你的公司突然需要在明天增加34TB的存储容量,你不需要增加任何存储设备,只需要在开账单的周期支付存储多增加出来的钱即可。如果其中一部分存储容量只是暂时性的话,你可以轻松地从云中删除不需要的数据,以减少使用的容量,并送交最终的账单。但本地的存储基础设施并没有这些功能。   数据中心安全第一 有害访问强制隔离   如果你曾配置过数据中心,必须要保证物理安全。未经授权的人通过各种层级的物理安全获得数据的机会是几乎不可能的。检查存储供应商提供的服务,你会发现这些数据中心不仅是保障不能出现有害的物理访问,还在于保护通过任何自然和人为操作所产生的灾难   云存储网关发威 恶意访问皆退散   物理安全对于企业去阻止恶意访问来说是非常重要的。越来越多的厂商提供云存储网关(cloud storage gateway)应用,无论是在传输中还是在静止中都能够保证高级别的数据安全。网关能够处理前端数据的存储进程。数据实际被存储在服务商提供的基础设施中,像是RackspaceAT&Ti365Amazon S3等等。   备份记录复杂昂贵 云存储简单方便   随着备份和灾难恢复的处理和要求变得越来越复杂、昂贵以及耗费时间。云存储服务能够大大地减少这种复杂性和成本。当在云中存储一个大数据集的时候,答案可以像复制数据到多重地理分布位置一样的简单。   单一技术非万能 分析思考更有效   像任何技术一样,根本不存一个万能的解决方案,云存储也是如此。仔细地检查当前的存储基础设施,创建数据的应用以及数据的用户。只有更仔细的分析,才能更加的清楚:基于云的存储通常完美适用于第二层级(Tier 2)的数据,以及那些需要在多个位置共享的数据。[1]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值