结构化 VS 非结构化



如果说结构化信息更多的忠实、详实地记录了企业的生产交易活动,是显性的表示,那么
非结构化信息则隐性包含了掌握着企业命脉的关键,隐含着许多提高企业效益的机会。



非结构化数据

非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。

概述编辑

相对于 结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、 标准通用标记语言下的子集 XMLHTML、各类报表、图像和音频/视频信息等等。
非结构化数据库是指其字段长度不等,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。
非结构化WEB数据库主要是针对非结构化数据而产生的,与以往流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和 数据项的变长 存储管理,在处理连续信息(包括全文信息)和 非结构化信息(包括各种 多媒体信息)中有着传统关系型数据库所无法比拟的优势。
结构化数据即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据
非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等
所谓 半结构化数据,就是介于完全结构化数据(如关系型数据库、 面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
数据模型:
结构化数据:二维表(关系型)
半结构化数据:树、图
非结构化数据:无
RMDBS的数据模型有:如网状数据模型、 层次数据模型、关系型
其他:
结构化数据:先有结构、再有数据
半结构化数据:先有数据,再有结构
随着 网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大。这时,主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而,数据库技术相应地进入了“后关系数据库时代”,发展进入基于网络应用的非结构化数据库时代。
我国非结构化数据库以北京国信贝斯(iBase)软件有限公司的IBase数据库为代表。IBase数据库是一种面向最终用户的非结构化数据库,在处理 非结构化信息、全文信息、 多媒体信息和海量信息等领域以及Internet/Intranet应用上处于国际先进水平,在非结构化数据的管理和 全文检索方面获得突破。它主要有以下几个优点:
  1. Internet应用中,存在大量的复杂数据类型,iBase通过其外部文件数据类型,可以管理各种文档信息、多媒体信息,并且对于各种具有检索意义的文档信息资源,如HTML、DOC、RTF、TXT等还提供了强大的全文检索能力。
  2. 它采用子字段、多值字段以及变长字段的机制,允许创建许多不同类型的非结构化的或任意格式的字段,从而突破了关系数据库非常严格的表结构,使得非结构化数据得以存储和管理。
  3. iBase将非结构化和结构化数据都定义为资源,使得非结构数据库的基本元素就是资源本身,而数据库中的资源可以同时包含结构化和非结构化的信息。所以,非结构化数据库能够存储和管理各种各样的非结构化数据,实现了 数据库系统 数据管理到内容管理的转化。
  4. iBase采用了 面向对象的基石,将企业业务数据和 商业逻辑紧密结合在一起,特别适合于表达复杂的 数据对象和多媒体对象。
  5. iBase是适应Internet发展的需要而产生的数据库,它基于Web是一个广域网的海量数据库的思想,提供一个网上资源管理系统iBase Web,将 网络服务器(WebServer)和 数据库服务器(Database Server)直接集成为一个整体,使 数据库系统和数据库技术成为Web的一个重要有机组成部分,突破了数据库仅充当Web体系后台角色的局限,实现数据库和Web的有机无缝组合,从而为在Internet/Intranet上进行信息管理乃至开展电子商务应用开辟了更为广阔的领域。
  6. iBase全面兼容各种大中小型的数据库,对传统关系数据库,如Oracle、Sybase、SQLServer、DB2、Informix等提供导入和链接的支持能力。
通过从上面的分析后我们可以预言,随着 网络技术和网络应用技术的飞快发展,完全基于Internet应用的非结构化数据库将成为继 层次数据库网状数据库和关系数据库之后的又一重点、热点技术。

云计算与非结构化数据编辑

据IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。非结构化数据,顾名思义,是存储在文件系统的信息,而不是数据库。据报道指出:平均只有1%-5%的数据是结构化的数据。如今,这种迅猛增长的从不使用的数据在企业里消耗着复杂而昂贵的一级存储的存储容量。如何更好的保留那些在全球范围内具有潜在价值的不同类型的文件,而不是因为处理它们却干扰日常的工作?当然你可以采购更多的就地存储设备,但这总会有局限性的。 云存储是越来越多的IT公司正在使用的存储技术。下面的分段解释了一些关于存储在云中的商业信息的关键要点。
   员工面临新挑战 数据如何被管理?
当企业参与到全球经济竞争中,IT员工面临着让分布在全球的员工能够有效访问重要数据的新挑战。全球分布的团队需要共享对大型的文件和数据集的读写访问,但这显然增加了 数据管理的复杂性。另外不断地采用 数据同步功能和精确度的问题都影响企业的工作效率。
云存储业务外包 降低成本是否可行?
随着基于云存储服务项目的增长,各种类型的企业都有能力将数据存储业务外包。利用这些外包服务,企业能大幅减少存储基础架构成本,在减少人工管理非结构化数据所需时间的同时增加了存储的灵活性,这在以前的企业中从未被使用过。另外,云服务也带来了巨大的经济效益。
云存储有多大 价格是否更合理?
大多数服务提供商对于云存储的定价都是根据实际使用了多少存储容量而决定的。支付多少钱就享用多少容量。因此不再需要存储架构师,也不再需要安装和管理存储设备。
如果你使用200TB的存储容量,你就只需支付200TB存储的这部分钱即可。如果你的公司突然需要在明天增加34TB的存储容量,你不需要增加任何存储设备,只需要在开账单的周期支付存储多增加出来的钱即可。如果其中一部分存储容量只是暂时性的话,你可以轻松地从云中删除不需要的数据,以减少使用的容量,并送交最终的账单。但本地的存储基础设施并没有这些功能。
数据中心安全第一 有害访问强制隔离
如果你曾配置过 数据中心,必须要保证物理安全。未经授权的人通过各种层级的物理安全获得数据的机会是几乎不可能的。检查存储供应商提供的服务,你会发现这些数据中心不仅是保障不能出现有害的物理访问,还在于保护通过任何自然和人为操作所产生的灾难
云存储网关发威 恶意访问皆退散
物理安全对于企业去阻止恶意访问来说是非常重要的。越来越多的厂商提供云存储网关(cloud storage gateway)应用,无论是在传输中还是在静止中都能够保证高级别的 数据安全。网关能够处理前端数据的存储进程。数据实际被存储在服务商提供的基础设施中,像是Rackspace、AT&T、i365、Amazon S3等等。
备份记录复杂昂贵云存储简单方便
随着备份和灾难恢复的处理和要求变得越来越复杂、昂贵以及耗费时间。 云存储服务能够大大地减少这种复杂性和成本。当在云中存储一个大数据集的时候,答案可以像复制数据到多重地理分布位置一样的简单。
单一技术非万能 分析思考更有效
像任何技术一样,根本不存一个万能的解决方案,云存储也是如此。仔细地检查当前的存储基础设施,创建数据的应用以及数据的用户。只有更仔细的分析,才能更加的清楚:基于云的存储通常完美适用于第二层级(Tier 2)的数据,以及那些需要在多个位置共享的数据。 [1]  

结构化信息

  编辑
结构化信息是指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过数据库进行管理,并有一定的操作规范。我们通常接触的,包括生产、业务、交易、客户信息等方面的记录都属于结构化信息。 无法完全数字化的信息称为非结构化信息,如文档文件、图片、图纸资料、缩微胶片等。这些资源中拥有大量的有价值的信息。现在这类非结构化信息正以成倍的速度增长。互联网上出现的海量信息,大概分为结构化、半结构化和非结构化三种。
中文名
结构化信息
性    质
数据库所管理的信息
特    征
互联网上出现的海量信息
优    点
拥有大量的有价值的信息

目录

定义编辑

结构化数据(Structured data)-可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。 [1]  
对于来源繁多的信息资料,专业人士根据信息的格式加以划分,将其分为结构化信息和非结构化信息两大类。
结构化信息,我们通常接触的数据库所管理的信息,包括生产、业务、交易、客户信息等方面的记录。
非结构化信息,专业术语为内容,所涵盖的信息更为广泛,可分为:营运内容(operationalcontent):如合约、发票、书信与采购记录;部门内容(workgroupcontent):如文书处理、电子表格、简报档案与电子邮件;Web内容:如HTML与XML等格式的信息;多媒体内容(RichMediaContent):如声音、影片、图形等。

类型编辑

互连网上出现的海量信息,大概分为结构化、半结构化和非结构化三种。结构化信息如电子商务信息,信息的性质和量值的出现的位置是固定的;半结构化的信息如专业网站上的细分频道,其标题和正文的语法相当规范,关键词的范围相当局限;非结构化的信息如BLOG和BBS,所有内容都是不可预知的。结构化信息和非结构化信息是IT应用的两个世界,它们有着各自不同的应用进化特点和规律。但是,这两个世界之间还缺少相互连接的桥梁,而这种缺失使企业中不可避免地存在“活动”、“信息和知识”的分离,其后果就是:虽然它们都在进行着“知识化”的努力,但两个世界分离的IT应用模式,注定使其难以真正实现它们的初衷——“在最合适的时间,将最合适的信息传送给最合适的人”。

特点编辑

结构化信息标准促进组织( OASIS)
结构化信息社会的特点就是,全社会经济文化活动,将会在各种信息的有序互动中完成,信息是结构化的,是有序的,是可以互动的。以结构化的信息流为基础,构建结构化的 信息社会。那些正向成为结构化信息社会有序元素之一的企业,是具有竞争力的企业,会发挥极大的社会效率,企业也会取得成功,而那些不能成为结构化信息社会一份子的企业,则不可避免地将被淘汰。
为了使信息更有效、更有针对性、更便于被查找、更有秩序,“傻目录”全球首创的“坐标信息定位”体系,可以将地域大小和行业分类分别设定为信息坐标的两个主坐标轴,让有效的信息内容在首页或次页呈现给查询者面前。横坐标是地域大小、位置选择,范围大到国家、省、市、行政区,小至三公里社区、一公里社区,查询者将鼠标放置在每个地域上面,则会提示出下一级地域的推荐。 纵坐标则类似于Windows软件的资源管理器,呈现的是行业的目录,从最大的行业分类如生活服务、商业服务、消费品、工业品和原材料到最小的行业分类如生活类的美容美发、美体减肥等,使用起来极其便利。

网页抽取编辑

WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据。是垂直搜索
结构化信息数据库 结构化信息数据库
引擎和通用搜索引擎最大的差别。
如:比较购物搜索那就需要抓取网页后,对网页中的商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、 CPU、内存、硬盘、显示屏、……”
房产信息搜索那就应该抽取出:类型、地域、地址、房型、面积、装修情况、租金、联系人、联系电话公司企业信息搜索那就应该抽取出:公司名称、地址、电话、联系人。
结构化信息抽取有两种方式可以实现,比较简单的是模板方式,还有一种是对网页不依赖的网页库级的结构化信息抽取方式。
模板方式是事先对特定的网页进行配置模板,抽取模板中设置好的需要的信息,可以针对有限个网站的信息进行精确的采集。
特点:简单、精确、技术难度低、方便快速部署。
缺点:需要针对每一个信息源的 网站模板进行单独的设定在信息源多样性的情况下维护量巨大是不可完成的维护量。所以这种方式适合少量信息源的信息处理,不是搜索引擎级的应用,很难满足用户对查全率的需求。
网页库结构化信息抽取是采用页面结构分析与智能节点分析转换的方法,自动抽取结构化的数据。
特点:可对任意的正常网页进行抽取,完全自动化,不用对具体网站事先生成模板,对每个网页自动实时得生成抽取规则,完全不需要人工干预。智能抽取准确率高,不是机械的匹配,采用智能分析技术,准确率能达到98%以上。能保证较快处理速度,由于采用页面的智能分析技术,先去除了垃圾块,降低分析的压力,是处理速度大大提高。通用性较好,易于维护,只需设定参数、配置相应的特征就能改进相应的抽取性能;一般的非专业人员经过简单培训就能维护。
缺点:技术难度高,前期研发成本高,周期长。适合网页库级别结构化数据采集和搜索的高端应用。

应用意义编辑

如果说结构化信息更多的忠实、详实地记录了企业的生产交易活动,是显性的表示,那么
结构化信息 结构化信息
非结构化信息则隐性包含了掌握着企业命脉的关键,隐含着许多提高企业效益的机会。对于企业来说,企业内部,以及企业与供应商、客户、合作伙伴和员工数字化共享所有形式的数据资源,已越来越重要。90%的信息和知识在“结构化”世界之外,IT应用中还存在着一个“非结构化”的世界。对大多数企业来说,ERP等业务系统所管理的结构化数据只占到企业全部信息和知识的10%左右,其他的90%都是数据库难以存取到的非结构化信息和知识。来自IDC的分析显示,虽然很多企业投资不菲建立了诸多业务支撑系统,但仍有72%的管理者认为知识没有在他们的组织得到重复利用,88%的人认为他们没有接触到企业最佳实践的机会。Gartner也曾预言,对非结构化信息和知识的管理将会带来一个新IT应用潮流。
非结构化信息处理类似于20世纪70年代以前的结构化信息应用。割裂、无法进行数据互操作的应用是其主流。以人们最常用的文档软件来看,DOC文档是MSWORD的专用格式,WPS、永中、中文2000等OFFICE产品厂商则各有各的“自留地”。这种情况下,由于文档格式的束缚而使信息四分五裂,信息流无法通畅流转,信息处理更加困难,信息资源因为“信息流的不通畅”而丧失了其应有的巨大价值。
从非结构化到半结构化,从半结构化到结构化,从结构化到关联数据体系,从关联数据体系到数据挖掘,从数据挖掘到故事化呈现,从故事化呈现到决策导向。

©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页