基于Web2.0的异构数字资源检索系统研究与开发

摘  要:对跨库检索技术进行调查分析,选择联合检索模式实现跨库检索,提出跨库检索模型。采用UML 2.0进行系统建模,选用PHP开发代码,同时将AJAX、TAG等Web2.0的元素引入系统来提高用户体验,采用基于XML的模版更新技术降低维护难度。同时对系统进行性能测试,最终实现了基于Web2.0的异构数字资源跨库检索系统。

关键词: 异构数字资源;检索模式;跨库检索;数字图书馆

文献标识码: A    中图分类号:TP393

 

1 引言

图书馆自建和外购文献数据库的数量越来越多,用户在时间的角度来看检索效率在不断下降,在空间角度来看文献资源范围在不断扩大。检索效率下降的主要原因在于:第一,文献数据库检索空间存在较大差异。文献数据库厂商的数据库产品都会按照自己的方式进行信息检索表达和结果呈现,对于用户来说,同样的查询题目,用户需要熟悉不同用户界面和检索规则,需要频繁登录与退出各个文献数据库,在不同的文献系统中重复输入检索词,重复查找;第二,用户认证方式繁琐。第三,增加了图书馆服务、管理难度。不利于区域或行业性文献共享平台对用户的统一管理[1]。有效解决因时间和空间变化所产生的问题,为用户提供更加简洁、便利的服务,就成为了当今图书馆学和图书情报服务行业研究的重要课题之一,对未来图书情报理论研究具有十分重要的意义。

2 跨库检索技术调查分析

文献数据库是分布式海量数据库群,是基于智能检索技术和宽带高速网络技术的大型、开放、分布式信息库群,具有异构和分布式计算两个最显著的特性。

跨库检索系统的实现必须紧密围绕异构和分布式计算两个最显著的特性开展技术开发,只要屏蔽文献数据库资源的异构性,合理采用分布式处理技术就能提出符合实际的解决方案,实现统一的文献资源查询服务。

从技术实现的角度看,跨库检索有二种模式:联合检索和整合检索二种[2]。联合检索一般采用模拟Web访问过程[3],将统一检索界面输入的检索条件自动保存下来依次传给多个数字资源系统,各数字资源系统启动各自的检索系统进行检索,并将检索结果在同一界面同时显示。这种技术实现难度相对较低、开发费用少、维护量小。该技术对数字资源系统的用户界面的HTML代码依赖性强,同时启动的检索进程系统越多,整体检索效率就会下降,另外组合检索难度大,不支持二次检索是它的最大缺点。整合检索不破坏各数字资源的数据库结构,它将各数字资源的元数据提取出来,经过重新描述建成标准统一的元数据库,在此元数据库的基础再配套开发检索系统,形成统一检索界面,因为检索都在统一元数据库中进行,只是当读者需要浏览对像数据时才调用各数字资源原有的浏览器进行阅读。所以它的整体检索效率非常高,并且还能很好的进行高级检索及二次检索,查全率查准率高,检索结果还可依据相关度、访问率、检索时间等进行智能排序。除了检索效率高外,并发用户量及兼容能力也非常强大,由于完全不依赖各数字资源原有的检索系统,适用范围广、稳定性非常好,但相对联合检索它的开发难度大、成本高,但效果最好。

目前,形成产品中大都是基于联合检索技术实现的,我国仅有国家科技图书文献中心、实施了浙江科技文献共享平台建设的北京九瑞公司等少数几个机构凭借其雄厚实力和技术力量开发出真正意义上的整合检索系统。

本文采用联合检索模式来实现跨库检索。

3跨库检索模型

跨库检索的目的是消除资源子空间引起的检索障碍,使得分布式资源经过跨库检索系统的处理,成为一个虚拟的资源统一体[4]。用户只需要在跨库检索网站设置好检索参数后,就可以进行检索了,具体的检索过程由跨库检索系统负责。

   跨库检索系统模型是四层:客户端,Web服务器,应用服务器和资源数据层。用户只需要在客户端设定好检索信息后(包括检索词和资源选择),利用HTTP协议发送检索请求,检索请求信息经Web服务器处理后传输到应用服务器后,在这里对检索请求进行分析,然后通过HTTP、Z39.50、ODBC或JDBC等协议访问资源数据库,得到检索结果后进行数据清理,然后以统一的数据形式传到客户端。很显然,在这个模型中用户只需要一次参数输入,就可以得到在传统检索中多次检索才能得到的检索结果,检索效率得到了很大的提高。

4 需求分析和系统建模

4.1跨库检索系统用户功能需求分析

    异构数字资源跨库检索系统从功能上来说,主要是为文献检索用户提供资源检索和基于Web 2.0[5]元素的个性化服务,为管理员提供资源的配置维护,能够调用其它系统访问接口。可进一步细化为检索子系统、管理子系统、用户子系统和接口子系统。其功能需求结构图如图2。
4.2系统建模

采用UML2.0对系统建模[6],在跨库检索系统中系统角色主要是有交互作用的人或事物,系统角色为:文献检索用户和管理员。文献检索用户是文献共享平台客户,包括个人用户和集团用户,进行文献检索的各种请求。管理员主要对系统进行维护配置工作。

用户实例是在系统中执行的一系列动作,这些动作将生成特定参与者可见的结果。从系统本身来讲,主要集中在用户服务和系统管理两个方面。进一步区分的话,可分为用户检索子系统和系统管理子系统,以下建立用户检索子系统用例图。


5系统开发环境

Web及文献网关应用服务器:Apache 2.0数据库服务器:Microsoft SQL Server 2000

开发语言:PHP 5.0,Javascipt 2.0

中间件:Multibyte String:多字节编码转换工具

DOM XML:XML文件解析工具

Tidy:HTML向XHTML文件转化、修复工具

Libcurl:多协议URL访问工具

Soap:简单对象访问协议组件

6 基于XML的模版更新技术

在跨库检索系统对各资源数据库进行处理之前,首先需要一种方法来描述各资源数据库的配置信息,可以采用SQL SERVER 2000来存储各数据库的配置信息[7],也可以采用XML来描述。为了有效降低用户维护难度,并能轻松实现导入导出描述模板,采用了基于XML的模版更新技术。

(1)资源描述模板

资源描述模板是对资源基本信息的描述性文件。

(2)资源访问模板

资源访问模板是指机器访问源数据过程及参数的描述性文件。它针对数据库厂商,多个资源描述模板可使用一个访问模板,就厂商而言它的资源发布平台是统一的,而不同的数据库,可通过子库来区分。

7 系统性能测试

    通过47599次用户检索的测试统计,用户平均资源查询访问时间为4.35秒,小于业界公认用户网页查询等待时间小于10秒[8]的要求。

资源数据库

查询次数(次)

平均访问时间(秒)

维普中文科技期刊

17133

5.11

清华同方中国期刊

19829

3.67

NSTL中文期刊

479

8.92

万方中国标准

695

1.67

万方中国科技成果

278

2.04


表1 查询最频繁的5个资源数据库主要性能表

从表1可以看出,清华同方、重庆维普、万方数据的平均检索时间较短,而NSTL中文期刊的平均检索时间较长,原因是前者都是镜像库,而后者是远程访问。

查询最频繁的前5个资源数据库总访问次数为38414次,占到了总访问次数的80.7%,通过计算加权平均时间为5.32秒,总体反映出系统处理性能比较理想。

    加权平均时间 =(17133×5.11+19829×3.67+479×8.92+695×1.67+278×2.04)/38414≈ 5.32秒。

结语

基于Web2.0的异构数字资源跨库检索系统的研究开发有效地保障了图书情报行业文献共享平台顺利建设。本系统截至目前已投入中国石油科技文献共享平台、甘肃省科技文献共享平台[9]、青海省科技文献共享平台[10]、宁夏科技文献共享平台[11]进行运行,累计整合资源数据库170个左右,系统已经基本实现产品化。但系统在设计实现上还存在一些不足,主要集中在以下几个方面:

(1)检索协议标准支持不广泛

    在采用松散耦合技术实现跨库检索系统中,还有一些比较重要的协议,如Z39.50等,系统对于这些协议暂时还不支持,需要在下一步延续开发中逐步的完善。

    (2)用户个性化功能灵活度不够

    系统虽然使用了主要的Web2.0元素进行用户个性化服务,但本身受到了跨库检索系统功能的局限,在用户使用的时候灵活度还是有所欠缺。

基于Web服务的跨库联合检索毕竟是为了解决数据库厂商的非规范的数据接口而产生的,基于标准和规范的资源数据库访问和检索接口才是解决目前数字资源“信息孤岛”[12]现象的有效途径和手段,我国应该及早加强该类标准和规范的制定和强制推广,使我国的数字图书馆建设早日完善。

参考文献

[1] 黄镝.异构数据库的跨库检索技术综述[J].图书情报工作,2003,(6):94-97,109.

[2] 欧阳美林.数字图书馆新技术—整合技术的研究[EB/OL].[2008-08-19].

http://www.chnlib.com/zylwj/shuzitsg/200605/221.html.

[3] 曹方,施韶亭.基于Web过程模拟的异构数字文献统一检索系统设计与实现[J].情报学报, 2006,25(5):575-579.

[4] 朱虎明.数字图书馆中统一检索系统的研究与开发[D].西安:西安电子科技大学,2004.

[5] 孙茜. Web2.0 的含义、特征与应用研究[J].现代情报,2006(2):69-70,74.

[6] 李云全,刘淑芬,申自浩.基于UML2.0的系统建模[J].河南理工大学学报(自然科学版),2007,26(5):555-558.

[7] 王权,施韶亭.基于PHP的统一检索系统的设计与实现[J].兰州理工大学学报,2008,34(1):91-94.

[8] 柳炳祥,盛昭翰.一种基于Web挖掘的网站性能评价方法[J].计算机工程与应用,2003,(4):189-191.

[9] 甘肃省科技文献资源共享平台[EB/OL].[2008-08-19].http://www.gsstd.cn.

[10] 青海省科技文献资源共享平台[EB/OL].[2008-08-19].http://www.textqh.com.

[11] 宁夏科技文献资源共享平台[EB/OL].[2008-08-19].http://www.nxkjwx.com.cn.

[12] 孙红艳,白秀丽,刘伟东.信息整合:区域公共图书馆与社科院信息系统对接互动的新课题[J].图书馆建设,2003(4):116-117.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值