搜索引擎分类

转载 2006年05月17日 20:43:00

  搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

 ■ 全文搜索引擎

  全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。

  从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。

 ■ 目录索引

  目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。

 ■ 元搜索引擎 (META Search Engine)

  元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpaceDogpileVivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

  除上述三大类引擎外,还有以下几种非主流形式:

  1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。
  2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
  3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。  

  由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎。

搜索引擎:文本分类——TF/IDF算法

TF-IDF(Term frequency-inverse document frequency ) 是文本挖掘中一种广泛使用的特征向量化方法。TF-IDF反映了语料中单词对文档的重要程度。假设单词用...

搜索引擎的分类

按照不同的技术特点,可以把搜索引擎分为网页级搜索、垂直搜索、元搜索引擎、目录搜索和集成搜索等五类。 一、网页级搜索 网页级搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Yahoo、M...

文本分类在搜索引擎中的应用

  • 2015年04月21日 16:48
  • 826KB
  • 下载

搜索引擎蜘蛛spider分类 蜘蛛都有哪几类

————摘自于《SEO深度解析》 按照现在网络上所有Spider的作用及表现出来的特征,可以将其分为三类:批量型Spider、增量型Spider和垂直型Spider。 1.批量型Spider ...
  • wqdwin
  • wqdwin
  • 2015年08月10日 08:35
  • 871

Meta 标签与搜索引擎优化

当谈及到标签对搜索引擎排名的影响,很多人都存在误解。在过去,许多已经失去作用的标签仍然被频繁使用。所以哪些标签对搜索引擎优化(SEO)有作用,哪些没有呢? 什么是Meta标签 Meta标签给搜索引...

通过Yahoo+Search+API访问Web服务实现自己的搜索引擎

效果截图: 本实例中并未实现所谓的模拟搜索引擎,因为没有较好的网络在yahoo上申请到账号,所以以后再测试了。静态页面:yahooSearch.htmlTransitional//EN" "http:...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:搜索引擎分类
举报原因:
原因补充:

(最多只允许输入30个字)