实用的专用搜索引擎

    最近看了一些网站的站内搜索引擎,除了个别的几个还算可以,多数简直是差的不像话,搜索出来的结果牛头不对马嘴。

  一般开发一个功能好的搜索引擎需要一个团队工作五年的时间,这还不算他们的结果可能是失败。用行内专家的话说,搜索引擎是与操作系统一样复杂的高科技作品,它是一项综合技术。    

    多年前我们做过一个搜索引擎,运行在政府网站两年多时间,是一个专用搜索引擎的例子。

    该网站将200多个深圳市政府相关网站作为信息源,利用网络蜘蛛不断地抓取其网页,最大限度地过滤信息垃圾,提供给需要的人们以正面的权威的信息。

    通过互联网获取信息已经成为今天人类获取信息的主要方式,这与网络搜索引擎是分不开的。

    网络搜索引擎利用网络蜘蛛不断地从互联网抓取信息,然后对抓取到的信息进行处理和索引,最后通过简捷的用户界面提供给用户检索服务。这就是我们现在使用的集中处理式网络搜索引擎的基本工作原理。

    网络搜索引擎的出现使人们通过互联网获取信息的方式被划分为两种主要途径,这就是以各门户网站为代表的分类信息检索和以搜索引擎为代表的内容信息检索。

    分类信息检索是按照信息可能的归属类别一步步地深入查找,例如:新闻、医药、住房,等等,可以到相应的网站目录下一层层地查找,直到查到你满意的信息。

    内容信息检索是在搜索引擎提供的查询表单上直接输入你希望查询的信息的相关表述,例如关键字,由搜索引擎的检索系统提供给你相关的信息。

    这两种信息获取的方法是相辅相成的。

    与门户网站不同,一般来说,搜索引擎本身并不产生信息,它只是从已有的信息源取得信息,把它加工处理之后,以更方便的形式提供给用户。例如,从互联网、电子图书馆等处获取信息。

    目前,广泛应用于搜索引擎获取网上信息的方式是通过网络蜘蛛自动抓取网页。网络蜘蛛也称网络机器人、网络爬虫,等等,它是一个工作在网络协议下的程序系统,可以根据实际需要设计其运行在一台计算机上,也可以由多台计算机组成一个网络系统,可以集中处理,也可以采取分布处理,具体取决于实际应用的整体效率。一般专业搜索引擎提供商都有自己的网络蜘蛛系统。

    网络蜘蛛工作情况直接关系到搜索引擎的信息内容的数量和质量,评价一个网络蜘蛛工作质量的主要指标是抓取速度,并且要求其抓取的网页要完整、不重复。一般而论,工作在一台PC机的蜘蛛系统在普通宽带的工作环境下一天可以下载200万以上的文本网页,这是最基本的性能要求,达到这一要求的基本技术是多线程处理。这样的处理速度对于一般企业的普通用途已经足可以满足了。

    在获得了海量的网页信息之后,就要对其进行索引处理,这是一个复杂的过程,一般包括从超文本标记语言中正确地抽取出原文信息,要删除那些无关的脚本和标记语言,然后要进行消重、分词、排序、索引,等等,这些都是最基本的技术手段,并不构成衡量一个搜索引擎系统质量好坏的技术指标。

    什么是好的搜索引擎呢?

    好的搜索引擎具有界面简单,信息量大,查全率高,响应速度快和用户体验好等特点。有的搜索引擎界面又列出了很多分类,几乎变成了一个分类信息检索网站。

    搜索引擎应该尽量满足用户需求,对用户的查询限止要少。例如,用户输入一个有缺陷的句子,搜索引擎应该能够给出最相关的查询响应,从而引导用户继续深入查询,直到查出需要的结果。

    目前互联网规模依然爆炸式增长,通用网络搜索引擎给出的搜索结果愈来愈多,有些情况下甚至于无法找到更接近的内容。此外,一些特殊需要导致市场需求特殊用途的搜索引擎,这就是垂直搜索引擎的诞生。垂直搜索引擎是与现有的通用数据库技术相结合,利用网络蜘蛛从网络上下载和提取用户需要的数据,并把它们存储在数据库中,用户可以按照数据库本身具有的功能进行查询、排序、分析、处理,比如说商品信息。另一种就是我们目前的专用搜索引擎,它实际上与通用搜索引擎是一样的,只不过限定了其信息服务的范围。比如,一个政府门户网站需要对其相关的208个部门网站进行信息整合,每个部门网站统一使用这个搜索引擎提供查询服务,达到资源共享。这其中的信息具有特殊要求,比如是符合政策法规和地方特色要求的政府信息,等等。并且实现了用户从政府任一个部门网站都可以查询到整个政府网站群的信息,大大增强了政府网站的信息服务能力。

    类似的应用十分广泛,例如企业和专业网站的搜索服务。

    该网站的搜索引擎凝结了开发者多年研究的结果,具有一流的技术,其分词极为丰富,响应速度为毫秒级,提供网页内容摘要、链接和快照,可容纳的信息量达亿级网页。对于亿级以上的海量信息搜索系统,只要有相应数量的设备,就能提供相应的信息查询服务。一般一个政府门户网站需要一台服务器可以满足信息的抓取、处理和检索服务。

    多年运行的实践证明该搜索引擎技术先进,性能稳定可靠。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值