搜索引擎

原创 2007年10月01日 00:36:00

1.搜索引擎分类

获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。

全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比较典型的全文搜索引擎系统。

分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如“网址之家”(http://www.hao123.com/)。

全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。为了取长补短,现在的很多搜索引擎,都同时提供这两类查询,一般对全文搜索引擎的查询称为搜索“所有网站”或“全部网站”,比如Google的全文搜索(http://www.google.com/intl/zh-CN/);把对分类目录的查询称为搜索“分类目录”或搜索“分类网站”,比如新浪搜索(http://dir.sina.com.cn/)和雅虎中国搜索(http://cn.search.yahoo.com/dirsrch/)。

在网上,对这两类搜索引擎进行整合,还产生了其它的搜索服务,在这里,我们权且也把它们称作搜索引擎,主要有这两类:

⒈元搜索引擎(META Search Engine)。这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比如“metaFisher元搜索引擎”(http://www.hsfz.net/fish/),它就调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。

⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示,比如“网际瑞士军刀”(

从零开始,写一个搜索引擎 (0x01)

第零部分我们已经列了一个提纲了,这一篇文章开始要详细说说了。搜索引擎基本概念在说搜索引擎架构分层之前,我们先确定几个搜索引擎的概念。 文档,搜索引擎的基本数据单元,比如一张网页,一个商品,多个文档合在...
  • ygrx
  • ygrx
  • 2016年04月12日 00:39
  • 4804

搜索引擎的设计与实现(一)从零开始?

毕业狗一枚,即将步入职场。仅以此系列,记录毕业设计中遇到的问题和解决的具体思路,重点不是完整的代码,而是得到完整代码的思考过程。所以只会贴出部分代码,勿怪。专业是电子商务,除了万恶的经管大类课程,技术...
  • u010386006
  • u010386006
  • 2015年06月19日 16:26
  • 1509

搜索引擎学习-实现

上篇文章介绍了搜索引擎的基本概念,有了大致的认识,本文说下搜索引擎实现上的一些问题。 搜索引擎组成 抓取系统:负责对互联网信息的搜集,将网页保存到本地,供下游分析、挖掘、建索引使用。 ...
  • whuqin
  • whuqin
  • 2014年04月04日 15:29
  • 845

搜索引擎的体系架构

参考文献:http://www.stlchina.org/twiki/bin/view.pl/Main/SEStructSys搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索...
  • wqf363
  • wqf363
  • 2006年12月19日 12:20
  • 2345

chrome浏览器,自定义搜索引擎,让搜索更高效

使用chrome自定义搜索引擎。 1 在地址栏—单击右键–点击 修改搜索引擎,如下:2 把浮窗滚动到最底下3 添加新的搜索引擎 就是把需要搜索的内容替换成%s,开发的童鞋对%s都不陌生。 4 打开新的...
  • ecliujianbo
  • ecliujianbo
  • 2016年02月15日 18:18
  • 5799

企业搜索引擎方案选型

由于搜索引擎功能在门户社区中对提高用户体验有着重在门户社区中涉及大量需要搜索引擎的 功能需求,目前在实现搜索引擎的方案上有集中方案可供选择: 1) 基于Lucene自己进行封装实现站内...
  • bingdongguke
  • bingdongguke
  • 2013年11月02日 17:15
  • 917

各种开源搜索引擎

C/C++语言: Zettair、lucy、XMLSearch、Omega、Xapian(支持多语言)、Swish++、 Swish—E、Sphinx Java:Lucene(相关项目支持多语言...
  • Botaruibo
  • Botaruibo
  • 2013年07月04日 17:50
  • 2214

搜索引擎与网络爬虫简述

一、搜索引擎          搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,将处理后的信息展示给用户。 垂直搜索引擎则是针对某一行业的专业所搜引擎,是...
  • Daybreak1209
  • Daybreak1209
  • 2016年09月03日 20:51
  • 1384

python爬虫第一课,制作搜索引擎

from BeautifulSoup import * from urlparse import urljoin ignaorewords=set(['the','of','to','and','a...
  • qq_21970857
  • qq_21970857
  • 2015年05月25日 11:26
  • 2755

ASP.net中用C#开发搜索引擎蜘蛛程

C#特别适合于构造蜘蛛程序,这是因为它已经内置了HTTP访问和多线程的能力,而这两种能力对于蜘蛛程序来说都是非常关键的。下面是构造一个蜘蛛程序要解决的关键问题:   ⑴ HTML分析:需要某种HTML...
  • mane_yao
  • mane_yao
  • 2010年07月30日 16:18
  • 2079
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:搜索引擎
举报原因:
原因补充:

(最多只允许输入30个字)