关键词搜索引擎的信息搜集系统、索引数据库和查询接口

关键词搜索引擎有网站搜索和网页搜索。

  网站搜索是将网站作为信息搜索对象,一般由人工完成;网页搜索引擎的信息搜集系统是通过网络机器人(robot)或是网络蜘蛛(spider)来自动完成的,不需要任何的人工处理。

  网络机器人(robot)或是网络蜘蛛(spider)从一组已知的文档出发,通过这些文档的超文本链接确定新的检索点,然后用机器人或蜘蛛周游这些新的检索点,标引这些检索点上的新文档,加入索引数据库组成倒排文档。因此如何从原始文档中抽取出全部有用信息,并将抽取的信息记录到索引库中是关键。

  关键词搜索引擎的的索引数据库建立的策略很大程度上影响了搜索引擎的效率与准确性。在设计一个索引数据库时,要针对实际需要确定索引数据库的数据结构和存储方式。

  由于搜索引擎系统通常处理的都是海量的信息,因此还要设计一定的压缩策略,对索引库进行有效的压缩,以提高检索的速度。

  关键词搜索引擎的检索接口除了要提供对单个字符串进行检索的基本检索功能外,还要支持多种复杂的高级检索功能,如多个字符串组合检索、模糊检索等。

  网页搜索引擎的检索接口还担负着检索结果相关性排序等关键技术的实现。
关键词搜索引擎的信息搜集系统、索引数据库和查询接口

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/10294527/viewspace-126470/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/10294527/viewspace-126470/

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值