天津日报报业集团是国内最大的报业集团之一,目前主办的有天津日报、每日新报、名师家教、球迷报、假日100天、采风报等多份报纸。为了更好的为读者服务,方便读者的信息查找,提高资源的使用价值,提升报社网站本身的形象,报社希望能提供历年报纸的全文检索。
报社电子数据状况。目前报社从1998年10月开始,一直到最新的报纸新闻的电子版本,总共有近五十万条记录。存在的主要问题:
——大量的新闻,以文本形式存在,不便于保管;
——查找极不方便,访问者抱怨多,同时报社编辑也无法找到自己需要的稿件;
——没有有效的查询,造成访问流量逐渐减少,对业务造成损失;
——编辑和记者很难参照以前报道的一些新闻,许多稿件引证太少。
针对以上问题,提出了以下检索需求:
1、关键词检索。
2、逻辑检索。
3、在结果中检索。
4、提供检索的动态摘要。
5、提供原文中命中关键词的反显。
6、在不同的报纸中检索。
7、在不同字段中检索(标题、正文、作者)。
8、查找指定作者的所有文章。
9、按日期检索。
10、按照不同条件检索。
11、检索速度快,要求在一秒内完成查询。
12、检索结果准确。
13、提供多种排序方式。
二、方案选择
实施站内检索有三种方案可供选择:
第一种:购买一套全文检索系统,组装成站内检索引擎。目前许多公司,如TRS、蓝帆、天津海量等都有独立的全文检索系统。这种全文检索系统可以实现上述的大部分检索要求,但价格比较高,而且需要做数据库和检索系统的连接安装,需要一台独立的全文检索服务器。
第二种:使用数据库自身的全文检索功能。后台数据库使用的SQL Server2000,自身带有全文检索功能。通过这种方式能实现所有的功能,而且不用购买另外的系统。但需要做大量的专业开发,而且不能实现动态摘要和关键词反显等功能。另外,检索速度慢,查询结果不够精确。如:搜索「和服」,大部分会是「信息和服务」、「产品和服务」等。
第三种:使用海量科技DESE(德思,嵌入式数据库搜索引擎)。DESE和数据库组合,能快速让数据库成为企业级的搜索引擎。通过这种方式,只需要做简单的配置就能实现报社所有需求,几乎没有开发量。另外从成本上,不需要额外的硬件投入,没有后期的维护成本。
综合考虑,对于报社的现状(已经存在数据库,需要完成个性化的搜索),我们采用第三种方案:SQL Server+海量DESE,为报社提供搜索站内检索系统。
三、系统架构
站内检索系统架构设计,主要考虑两个方面:一方面是要能满足所有的需求。另一方面是让以后的维护成本低。
使用DESE,从根本上把检索和数据库融为一体,不需要再把数据库中的记录导出再建立索引,同时避免了数据更新的维护问题。对于整个系统的稳定性来说,数据存储使用的是数据库,服务使用的是Windows自己的IIS服务,不会因为不同系统之间的冲突导致整个系统的不稳定。
系统架构设计如下图:
四、实施步骤
本次实施步骤中没有包括数据入库,在实施前,报社已经按照我们的建议,通过我们的工具自动把数据导入到数据库中。
1 安装DESE。点击Setup.exe,把DESE安装在SQL Server数据库所在的服务器上。需要时间5分钟。
2 配置DESE。通过DESE提供的配置界面,对要检索的模块进行设置。配置完成后,系统自动开始提供服务如下图。需要时间15分钟。
3 提供不同的检索方式。修改DESE提供的高级搜索页面,提供按照时间、作者、标题等搜索方式。如下图。需要时间25分钟。
4 修改搜索返回页面。DESE自身提供返回页面,替换为天津日报Logo图片,修改背景颜色和显示位置。需要时间15分钟。
总共在一小时之内,实现站内检索,满足了所有的需求。现在就可以进行搜索了。大家可以访问:http://www.tjrb.com.cn来测试效果。
五、系统特点:
利用DESE和SQL Server快速实现站内检索,具有以下特点:
1、系统实施简单。整个系统可以在1小时内完成。
2、维护成本低。和用户原有的数据库融合在一起,自动更新维护。
3、搜索效果好。基于海量科技的中文智能计算技术,提供精确的关键词搜索。搜索速度快。
4、搜索方式丰富。满足各种搜索方式需求。
5、系统扩展性强。采用SQL Server数据库,系统可以和其它系统兼容。同时可以对以后新主办的报纸进行扩展。