搜索引擎

原创 2007年10月01日 00:36:00

1.搜索引擎分类

获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。

全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比较典型的全文搜索引擎系统。

分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如“网址之家”(http://www.hao123.com/)。

全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。为了取长补短,现在的很多搜索引擎,都同时提供这两类查询,一般对全文搜索引擎的查询称为搜索“所有网站”或“全部网站”,比如Google的全文搜索(http://www.google.com/intl/zh-CN/);把对分类目录的查询称为搜索“分类目录”或搜索“分类网站”,比如新浪搜索(http://dir.sina.com.cn/)和雅虎中国搜索(http://cn.search.yahoo.com/dirsrch/)。

在网上,对这两类搜索引擎进行整合,还产生了其它的搜索服务,在这里,我们权且也把它们称作搜索引擎,主要有这两类:

⒈元搜索引擎(META Search Engine)。这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比如“metaFisher元搜索引擎”(http://www.hsfz.net/fish/),它就调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。

⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示,比如“网际瑞士军刀”(

相关文章推荐

SEO(搜索引擎优化)个人遇到过的误区详细解读

现在认为SEO优化工作不是一个一成不变的工作,他需要时时刻刻去寻找和优化用户体验的过程,而不是时时刻刻去研究百度,在大数据已经普及的现在,搜索引擎的算法更新是时时刻刻的,而唯一不变的是用户体验的提升,...

俄罗斯搜索引擎Yandex称将在海外挑战谷歌

北京时间10月20日上午消息,俄罗斯搜索引擎Yandex将在土耳其等新兴市场挑战谷歌,以此对抗谷歌对其本土市场的入侵。   Yandex创始人兼CEO阿卡迪·沃罗兹(ArkadyVolozh)周...
  • cometwo
  • cometwo
  • 2012年10月21日 17:51
  • 750

搜索引擎智能提示的实现-基于Lucene拼音检查库

package lia.tools; /** * Copyright Manning Publications Co. * * Licensed under the Apache Licens...
  • earbao
  • earbao
  • 2015年02月01日 21:47
  • 3098

Indri和Terrier搜索引擎的使用

Indri和Terrier都是开源的搜索引擎,其中Indri作为Lemur项目的一个重要部分,具有强大的查询接口,易建索引,可扩展,高效率等优点。可以在SourceForge Lemur Projec...

搜索引擎蜘蛛及网站robots.txt文件详解

原文链接:http://www.cnblogs.com/study121007/p/4612263.html 我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOT...

dySE:一个 Java 搜索引擎的实现

本系列文章将逐步介绍 dySE 这个开源的 Java 小型搜索引擎的实现过程。该搜索引擎分为三个模块:爬虫模块、预处理模块和搜索模块。其中详细阐述了: 多线程页面爬取、正文内容提取、文本提取、分词、...

创建一个图片搜索引擎的完整指南

大家都知道,通过文本或标签来搜索图片的体验非常糟糕。 无论你是将个人照片贴标签并分类,或是在公司的网站上搜索一堆照片,还是在为下一篇博客寻找合适的图片。在用文本和关键字来描述图片是非常痛...

如何让百度等搜索引擎收录转载或伪原创的内容

转载的模式,对于部分站长来说,会配置制止搜索引擎收录,也即是在文章里加之nofollow属性,还有一种便是伪原创内容,大话说,部落也每每性的转载,固然,网站中的伪原创也不在少数,只不过绝大一小部分,都...

搜索引擎倒排索引表压缩:gamma编码

搜索引擎的倒排索引表所占的空间很大,对倒排索引表进行压缩显得非常必要。由于倒排索引表中存储的全部都是数字,对其进行压缩有着专门的方法,Gamma编码就是其中的一种。Gamma编码是一种基于位的变长编码...

修改google搜索引擎非hk方法

C:\Users\Administrator\AppData\Local\360Chrome\Chrome\User Data中找到Local State搜索hk并删除,然后修改Local State...
  • spygg
  • spygg
  • 2012年08月02日 21:02
  • 13372
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:搜索引擎
举报原因:
原因补充:

(最多只允许输入30个字)