非结构化数据处理方案



 非结构化数据&结构化处理方案


一、 非结构化数据处理需求
   企业拥有的非结构化数据增长迅速。非结构化数据是计算机或人生成的信息,其中的数据并不一定遵循标准的数据结构(如模式定义规范的行和列),若没有人或计算机的翻译,则很难理解这些数据。常见的非结构化数据有文档、多媒体内容、地图和地理信息、人造卫星和医学影像,还有 Web 内容,如 HTML。
   根据数据的创建方式和使用方式的不同,非结构化数据的管理方法大不相同。 
1. 大量数据分布于桌面办公系统(如文档、电子表格和演示文稿)、专门的工作站和设备 (如地理空间分析系统和医学捕获和分析系统)上。
2. 政府、学术界和企业中数 TB 的文档存档和数字库。
3. 生命科学和制药研究中使用的影像数据银行和库。
4. 公共部门、国防、电信、公用事业和能源地理空间数据仓库应用程序。
5. 集成的运营系统,包括零售、保险、卫生保健、政府和公共安全系统中的业务或健康记录、位置和项目数据以及相关音频、视频和图像信息。


二、 KingbaseES 数据库在处理非结构化数据的优势
2.1 全文索引与检索
虽然数据库中早已支持全文检索操作符,如LIKE操作符,但目前这类操作符很难满足现代信息系统的全文检索需求。它的不足主要体现在以下方面:
? 缺乏语言支撑
例如,通过LIKE操作检索satisfy时不能把和它具有相同词根的satisfies也一并检索出来。
? 不支持结果集rank操作
在实际应用中,全文检索的结果集通常很大。若不对这些结果进行rank操作,则用户很难从中快速挑选出所需的结果。
? 检索性能较差
这些操作符一般缺乏有效的索引支撑,因此它的检索速度用户通常难以接受。
针对上述情况,KingbaseES在文本类型数据上提供了高效的全文索引和检索功能。
KingbaseES的全文检索主要具有以下特征:
? 支持丰富的数据类型
支持CHAR、VARCHAR、TEXT或CLOB类型字段的全文检索。
? 良好的可扩展性
允许用户依据自身应用需求,创建新的数据字典、分词器或rank函数。
? 内置rank函数
除允许用户创建rank函数外,系统内部还提供基于词语相似性、共现性和重要性的通用rank函数。
? 检索文本预处理
在检索前对检索文本进行了如下处理:文本的词语标注、规范化处理(如大小写转换、词根处理)、rank计算、剔除stopword等。
? 高效的全文索引
为优化检索性能,在检索文本上创建了广义倒排索引。
目前,KingbaseES提供了两种检索方式,即传统的数据库SQL检索和全新的全文检索。二者的区别是:前者获得的是精确匹配结果,而后者获得的是非精确匹配结果。因此,在实际应用中,用户可把二者配合使用,即首先可利用全文检索的模糊匹配功能,缩小检索范围,然后在该范围内再使用传统SQL检索的精确匹配功能快速获取所需结果。
2.2 大对象类型
通常,现代信息系统的大量数据是以半结构化或非结构化的数据形式存在。数据库系统若仅能存储和管理表等结构化信息的话,则远远不能满足如今的应用需求。因此,它还应能存储和管理图片、报表、图像、音频和视频等各种半结构化或非结构化的多媒体信息。针对这种情况,KingbaseES内部提供了专门的数据类型(即大对象类型),用于存储和管理这些多媒体数据。
目前,KingbaseES支持两种大对象类型,即二进制大对象(BLOB)和字符大对象(CLOB)类型,单个大对象大小可达到2G。并在这些类型上还提供了包括大对象创建、关闭、删除、读取、写入、截断、导入、导出等操作在内的对外函数接口。
与普通字符串类型相比,KingbaseES大对象类型重点从数据存储、锁资源使用优化、事务管理和逻辑备份与还原等方面进行了特殊处理。


三、 综上所述,根据目前所了解到的信息,我们可以将非结构化数据(文档、多媒体内容、地图和地理信息、人造卫星和医学影像,还有 Web 内容)通过KingbaseES支持的两种大对象类型,即二进制大对象(BLOB)和字符大对象(CLOB)类型,单个大对象大小可达到2G。并在这些类型上还提供了包括大对象创建、关闭、删除、读取、写入、截断、导入、导出等操作在内的对外函数接口。


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/25714550/viewspace-1813365/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/25714550/viewspace-1813365/

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Oracle结构化数据分布式存储是指在Oracle数据库中存储和管理结构化数据时,采用分布式存储的方式进行管理。结构化数据是指不适合使用传统的表格和列的结构进行存储和组织的数据,比如文档、图像、音频和视频等。传统的关系型数据库中处理结构化数据的能力较弱,无法高效地存储和查询此类数据。 采用分布式存储的方式可以将数据分散存储在多个节点上,通过并行处理和负载均衡的方式提高数据的处理能力和性能。Oracle结构化数据分布式存储可以在多个节点上存储结构化数据,并且为应用程序提供统一的访问接口。这样可以实现高可用性和可伸缩性,在面对大量的结构化数据时依然能够快速响应和处理。 Oracle结构化数据分布式存储的实现可以通过数据库集群的方式来实现,采用共享存储或分布式文件系统来存储结构化数据。每个节点都可以访问整个数据集,并且可以并行地处理请求,从而提高系统的处理能力和响应速度。同时,Oracle数据库提供了丰富的功能和工具来管理结构化数据,包括存储管理、检索和查询等。 总之,Oracle结构化数据分布式存储是一种通过分布式存储的方式来管理结构化数据的方法。它能够提高数据的处理能力和性能,并且通过统一的接口提供方便的访问方式。这为处理大量的结构化数据提供了有效的解决方案,同时也满足了现代应用对于高可用性和可伸缩性的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值