关于搜索引擎原理的详细解读-CSDN博客

本文链接：https://blog.csdn.net/aoyoujj/article/details/88689896

本文详细介绍了搜索引擎的工作原理，包括爬行抓取、建立索引、搜索词处理和排序过程。搜索引擎通过网络爬虫自动获取网页信息，建立倒排索引，提供快速检索。全文搜索引擎与分类目录各有特点，前者依赖于网络机器人自动分析，后者依靠人工收集整理。搜索引擎的发展趋势在于提高用户检索提问的理解、发展垂直主题搜索引擎和元搜索引擎。主要的搜索引擎包括Google、百度、雅虎中国等，它们不断优化服务，提供更准确的搜索结果。新网站应对搜索引擎的方式包括提高网页质量、建立链接和合理使用SEO策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

搜索引擎，通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词（即关键词）进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后，这些结果将按照与搜索关键词的相关度高低（或与相关度毫无关系），依次排列。

搜索引擎工作原理示意图

在搜索引擎的后台，有一些用于搜集网页信息的程序。所收集的信息一般是能表明网站内容（包括网页本身、网页的URL地址、构成网页的代码以及进出网页的连接）的关键词或者短语。接着将这些信息的索引存放到数据库中。
搜索引擎的系统架构和运行方式吸收了信息检索系统设计中许多有价值的经验，也针对万维网数据和用户的特点进行了许多修改，如右图所示的搜索引擎系统架构。其核心的文档处理和查询处理过程与传统信息检索系统的运行原理基本类似，但其所处理的数据对象即万维网数据的繁杂特性决定了搜索引擎系统必须进行系统结构的调整，以适应处理数据和用户查询的需要。

爬行和抓取
搜索引擎派出一个能够在网上发现新网页并抓文件的程序，这个程序通常称之为蜘蛛（Spider）。搜索引擎从已知的数据库出发，就像正常用户的浏览器一样访问这些网页并抓取文件。搜索引擎通过这些爬虫去爬互联网上的外链，从这个网站爬到另一个网站，去跟踪网页中的链接，访问更多的网页，这个过程就叫爬行。这些新的网址会被存入数据库等待搜索。所以跟踪网页链接是搜索引擎蜘蛛（Spider）发现新网址的最基本的方法，所以反向链接成为搜索引擎优化的最基本因素之一。搜索引擎抓取的页面文件与用户浏览器得到的完全一样，抓取的文件存入数据库。
建立索引
蜘蛛抓取的页面文件分解、分析，并以巨大表格的形式存入数据库，这个过程即是索引（index).在索引数据库中，网页文字内容，关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。
搜索词处理
用户在搜索引擎界面输入关键词，单击“搜索”按钮后，搜索引擎程序即对搜索词进行处理，如中文特有的分词处理，去除停止词，判断是否需要启动整合搜索，判断是否有拼写错误或错别字等情况。搜索词的处理必须十分快速。
排序
对搜索词处理后，搜索引擎程序便开始工作，从索引数据库中找出所有包含搜索词的网页，并且根据排名算法计算出哪些网页应该排在前面，然后按照一定格式返回到“搜索”页面。
再好的搜索引擎也无法与人相比，这就是为什么网站要进行搜索引擎优化。没有SEO的帮助，搜索引擎常常并不能正确的返回最相关、最权威、最有用的信息。

搜索引擎工作原理

全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件，它遍历Web空间，能够扫描一定IP地址范围内的网站，并沿着网络上的链接从一个网页到另一个网页，从一个网站到另一个网站采集网页资料。它为保证采集的资料最新，还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页，还要有其它程序进行分析，根据一定的相关度算法进行大量的计算建立网页索引，才能添加到索引数据库中。我们平时看到的全文搜索引擎，实际上只是一个搜索引擎系统的检索界面，当你输入关键词进行查询时，搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引，并按一定的排名规则呈现给我们。不同的搜索引擎，网页索引数据库不同，排名规则也不尽相同，所以，当我们以同一关键词用不同的搜索引擎查询时，搜索结果也就不尽相同。
和全文搜索引擎一样，分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分，只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员，负责收集网站的信息。随着收录站点的增多，现在一般都是由站点管理者递交自己的网站信息给分类目录，然后由分类目录的编辑人员审核递交的网站，以决定是否收录该站点。如果该站点审核通过，分类目录的编辑人员还需要分析该站点的内容，并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时，可以选择按照关键词搜索，也可按分类目录逐层查找。如以关键词搜索，返回的结果跟全文搜索引擎一样，也是根据信息关联程度排列网站。需要注意的是，分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行，它的查询结果也只是被收录网站首页的URL地址，而不是具体的页面。分类目录就像一个电话号码薄一样，按照各个网站的性质，把其网址分门别类排在一起，大类下面套着小类，一直到各个网站的详细地址，一般还会提供各个网站的内容简介，用户不使用关键词也可进行查询，只要找到相关目录，就完全可以找到相关的网站（注意：是相关的网站，而不是这个网站上某个网页的内容，某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的）。

搜索引擎数据结构

搜索引擎的核心数据结构为倒排文件（也称倒排索引），倒排索引是指用记录的非主属性值(也叫副键)来查找记录而组织的文件叫倒排文件，即次索引。倒排文件中包括了所有副键值，并列出了与之有关的所有记录主键值，主要用于复杂查询。与传统的SQL查询不同，在搜索引擎收集完数据的预处理阶段，搜索引擎往往需要一种高效的数据结构来对外提供检索服务。而现行最有效的数据结构就是“倒排文件”。倒排文件简单一点可以定义为“用文档的关键词作为索引，文档作为索引目标的一种结构（类似于普通书籍中，索引是关键词，书的页面是索引目标）。

搜索引擎分类

在浩如烟海的“Internet（因特网）”上，特别是其上的Web（World Wide Web即全球广域网,也称为万维网）上，不会搜索，就不会上网。特别是SEOer朋友们，不了解搜索引擎原理，你怎么做SEO优化？你了解搜索引擎吗？它们是怎么工作的？你在使用哪些搜索引擎？
获得网站网页资料，能够建立数据库并提供查询的系统，我们都可以把它叫做搜索引擎。按照工作原理的不同，可以把它们分为两个基本类别：全文搜索引擎（FullTextSearch Engine）和分类目录（Directory）。可以衍生出元搜索引擎（Meta Search Engine）和集成搜索引擎（All-in-One Search Page）。
全文搜索引擎的数据库是依靠一个叫“网络机器人（Spider）”或叫“网络蜘蛛（crawlers）”的软件，通过网络上的各种链接自动获取大量网页信息内容，并按以定的规则分析整理形成的。Google、百度都是比较典型的全文搜索引擎系统。
分类目录则是通过人工的方式收集整理网站资料形成数据库的，比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外，在网上的一些导航站点，也可以归属为原始的分类目录，比如“网址之家（http://www.hao123.com/）”。
全文搜索引擎通过自动的方式分析网页的超链接，依靠超链接和HTML代码分析获取网页信息内容，并按事先设计好的规则分析整理形成索引，供用户查询。
两者的区分可用一句话概括：分类目录是人工方式建立网站的索引，全文搜索是自动方式建立网页的索引。（有些人经常把搜索引擎和数据库检索相比较，其实是错误的）
全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行，所以数据库的容量非常庞大，但是，它的查询结果往往不够准确；分类目录依靠人工收集和整理网站，能够提供更为准确的查询结果，但收集的内容却非常有限。为了取长补短，现在的很多搜索引擎，都同时提供这两类查询，一般对全文搜索引擎的查询称为搜索“所有网站”或“全部网站”，比如Google的全文搜索；把对分类目录的查询称为搜索“分类目录”或搜索“分类网站”，比如新浪搜索和雅虎中国搜索。

一、全文搜索引擎

在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索，即每隔一段时间（比如Google一般是28天），搜索引擎主动派出“蜘蛛”程序，对一定IP地址范围内的互联网站进行检索，一旦发现新的网站，它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索，即网站拥有者主动向搜索引擎提交网址，它在一定时间内（2天到数月不等）定向向你的网站派出“蜘蛛”程序，扫描你的网站并将有关信息存入数据库，以备用户查询。由于搜索引擎索引规则发生了很大变化，主动提交网址并不保证你的网站能进入搜索引擎数据库，因此目前最好的办法是多获得一些外部链接，让搜索引擎有更多机会找到你并自动将你的网站收录。
当用户以关键词查找信息时，搜索引擎会在数据库中进行搜寻，如果找到与用户要求内容相符的网站，便采用特殊的算法——通常根据网页中关键词的匹配程度，出现的位置/频次，链接质量等——计算出各网页的相关度及排名等级，然后根据关联度高低，按顺序将这些网页链接返回给用户。

全文搜索的工作原理

全文搜索引擎一般信息采集、索引、搜索三个部分组成，详细的划分可分为搜索器、分析器、索引器、检索器和用户接口等5个部分组成。
1、信息采集（Webcrawling）：信息采集的工作由搜索器和分析器共同完成，搜索引擎利用称为网络爬虫（crawlers）、网络蜘蛛（spider）或者叫做网络机器人（robots）的自动搜索机器人程序来查询网页上的超链接。
进一步解释一下："机器人"实际上是一些基于Web的程序，通过请求Web站点上的HTML网页来对采集该HTML网页，它遍历指定范围内的整个Web空间，不断从一个网页转到另一个网页，从一个站点移动到另一个站点，将采集到的网页添加到网页数据库中。"机器人"每遇到一个新的网页，都要搜索它内部的所有链接，所以从理论上讲，如果为"机器人"建立一个适当的初始网页集，从这个初始网页集出发，遍历所有的链接，"机器人"将能够采集到整个Web空间的网页。
网上后很多开源的爬虫程序，可以到一些开源社区中查找。
关键点1：核心在于html分析，因此严谨的、结构化的、可读性强、错误少的html代码，更容易被采集机器人所分析和采集。例如，某个页面存在<body这样的标签或者没有这样的结尾，在网页显示是没有问题的，但是很有可能会被采集拒绝收录，在例如类似…/…/***.htm这样的超链接，也有可能造成蜘蛛无法识别。这也是需要推广web标准的原因之一，按照web标准制作的网页更容易被搜索引擎检索和收录。
关键点2：搜索机器人有专门的搜索链接库，在搜索相同超链接时，会自动比对新旧网页的内容和大小，如果一致，则不采集。因此有人担心修改后的网页是否能被收录，这是多余的。
2、索引（Indexing）：搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息，还要将它们按照一定的规则进行编排。索引可以采用通用的大型数据库，如ORACLE、Sybase等，也可以自己定义文件格式进行存放。索引是搜索中较为复杂的部分，涉及到网页结构分析、分词、排序等技术，好的索引能极大的提高检索速度。
关键点1：虽然现在的搜索引擎都支持增量的索引，但是索引创建依然需要较长的时间，搜索引擎都会定期更新索引，因此即便爬虫来过，到我们能在页面上搜索到，会有一定的时间间隔。
关键点2：索引是区别好坏搜索的重要标志。
3、检索（Searching）：用户向搜索引擎发出查询，搜索引擎接受查询并向用户返回资料。有的系统在返回结果之前对网页的相关度进行了计算和评估，并根据相关度进行排序，将相关度大的放在前面，相关度小的放在后面；也有的系统在用户查询之前已经计算了各个网页的网页等级（PageRank 后文会介绍），返回查询结果时将网页等级大的放在前面，网页等级小的放在后面。
关键点：不同搜索引擎有不同的排序规则，因此在不同的搜索引擎中搜索相同关键词，排序是不同的。

二、分类目录索引

与全文搜索引擎相比，目录索引有许多不同之处。
首先，搜索引擎属于自动网站检索，而目录索引则完全依赖手工操作。用户提交网站后，目录编辑人员会亲自浏览你的网站，然后根据一套自定的评判标准甚至编辑人员的主观印象，决定是否接纳你的网站。如果审核通过，你网页才会出现于搜索引擎中，否则不会显示。
其次，搜索引擎收录网站时，只要网站本身没有违反有关的规则，一般都能收录成功。而目录索引对网站的要求则高得多，有时即使登录多次也不一定成功。
此外，在登录搜索引擎时，我们一般不用考虑网站的分类问题，而登录目录索引时则必须将网站放在一个最合适的目录。
最后，搜索引擎中各网站的有关信息都是从用户网页中自动提取的，所以用户的角度看，我们拥有更多的自主权；而目录索引则要求必须手工另外填写网站信息，而且还有各种各样的限制。更有甚者，如果工作人员认为你提交网站的目录、网站信息不合适，他可以随时对其进行调整，当然事先是不会和你商量的。
目录索引，顾名思义就是将网站分门别类地存放在相应的目录中，因此用户在查询信息时，可选择关键词搜索，也可按分类目录逐层查找。如以关键词搜索，返回的结果跟搜索引擎一样，也是根据信息关联程度排列网站，只不过其中人为因素要多一些。如果按分层目录查找，某一目录中网站的排名则是由标题字母的先后顺序决定（也有例外）。
目前，搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索。

三、元搜索引擎

元搜索引擎（Meta Search Engine）不是一种独立的搜索引擎，它最显著的特点是没有自己的资源索引数据库，是架构在许多其他搜索引擎之上的搜索引擎。元搜索引擎在接受用户查询请求时，可以同时在其他多个搜索引擎中进行搜索，并将其他搜索引擎的检索结果经过处理后返回给用户。元搜索引擎为用户提供一个统一的查询页面，通过自己的用户提问预处理子系统将用户提问转换成各个成员搜索引擎能识别的形式，提交给这些成员搜索引擎中，然后把各个成员搜索引擎的搜索结果按照自己的结果处理子系统进行比较分析，去除重复并且按照自定义的排序规则进行排序返回给用户。所以，一般的元搜索引擎都包括三大功能结构：提问预处理子系统、检索接口代理子系统和检索结果处理子系统。

结构
一个真正的元搜索引擎由三部分组成，即：检索请求提交机制、检索接口代理机制、检索结果显示机制。"请求提交"负责实现用户"个性化"的检索设置要求，包括调用哪些搜索引擎、检索时间限制、结果数量限制等。"接口代理"负责将用户的检索请求"翻译"成满足不同搜索引擎"本地化"要求的格式。"结果显示"负责所有元搜索引擎检索结果的去重、合并、输出处理等。
元搜索引擎的出现，对于那些需要连续地使用不同的搜索引擎重复相同的检索的人来说，是一个福音。使用元搜索引擎同时对几个搜索引擎进行检索，获得分级编排的检索。
分类
在可以检索的目标搜索引擎、检索提问的处理方式以及如何编译和显示结果方面，元搜索引擎有着很大的差异。有些元搜索引擎一个接一个的搜索目标搜索引擎，另一些则同时进行搜索，有些搜索引擎将检索提问转变成目标搜索引擎的提问语言，而有一些则原封不动的发送给目标引擎。
按功能划分，元搜索引擎包括多线索式搜索引擎和All-in-One式搜索引擎；按运行方式的差异可分为在线搜索引擎和桌面搜索引擎。
前景
元搜索引擎是为弥补传统搜索引擎的不足而出现的一种辅助检索工具，有着传统搜索引擎所不具备的许多优势。但是，元搜索引擎依赖于数据库选择技术、文本选择技术、查询分派技术和结果综合技术等。用户界面的改进、调用策略的完善、返回信息的整合以及最终检索结果的排序，仍然是未来元搜索引擎研究的重点。

四、集成搜索引擎

集成搜索引擎（All-in-One Search Page）亦称为“多引擎同步检索系统 ”，是在一个WWW页面上链接若干种独立的搜索引擎，检索时需点选或指定搜索引擎，一次检索输入，多引擎同时搜索，用起来相当方便。
集成搜索引擎无自建数据库，不需研发支持技术，当然也不能控制和优化检索结果。但集成搜索引擎制作与维护技术简单，可随时对所链接的搜索引擎进行增删调整和及时更新，尤其大规模专业（如FLASH、MP3等）搜索引擎集成链接，深受特定用户群欢迎。
集成搜索引擎是通过网络技术，在一个网页上链接很多个独立搜索引擎，查询时，点选或指定搜索引擎，一次输入，多个搜索引擎同时查询，搜索结果由各搜索引擎分别以不同页面显示。
任何搜索引擎的设计，均有其特定的数据库索引范围、独特的功能和使用方法，以及预期的用户群指向。一种搜索引擎不可能满足所有人或一个人所有的检索需求。在某些情况下，如文献普查、专题查询、新闻调查与溯源、软件及MP3下载地址搜索等等，人们往往需要使用多种搜索引擎，对搜索结果进行比较、筛选和相互印证。为解决逐一登陆各搜索引擎，并在各搜索引擎中分别多次输入同一检索请求（检索字串）等烦琐操作，集成搜索引擎和元搜索引擎应运而生。

集成搜索引擎起源
因特网上冲浪，你也许有这种痛苦经历：利用搜索引擎进行网页搜索时，在第一个搜索引擎中没有找到满意的结果，于是在第二、第三……个搜索引擎间奔波，为找到满意的结果而费时费力。其实，在因特网上已有不少聪明人开发出了一种Metasearch技术，即集成搜索，也叫索引搜索，来帮助上网者快速、全面、准确地搜索到自己确实需要的网页。这种技术的特点是：这些网站上集成了许多搜索引擎，你输入一个查询要求，它会将其适当格式化后提交给许多搜索引擎进行搜索，然后将返回的搜索结果进行整理、合并、集成为一个页面，或一份报告，内容就是你要的搜索结果。
集成搜索引擎优点
集成搜索引擎的优点是明显的：首先，它在一个网站上同时搜索许多搜索引擎，最终返回的结果被进行了适当的整合，删除了一些不适合和重复的网页，从而大大地节省你的时间、金钱和精力，使搜索变得更有效率；其次，它使你的搜索结果更为全面、准确，也更容易找到符合你需要的结果。

搜索引擎工作状态

搜索引擎的发展趋势

一个好的搜索引擎，不仅数据库容量要大，更新频率、检索速度要快，支持对多语言的搜索，而且随着数据库容量的不断膨胀，还要能从庞大的资料库中精确地找到正确的资料。
1、提高搜索引擎对用户检索提问的理解。
为了提高搜索引擎对用户检索提问的理解，就必须有一个好的检索提问语言。为了克服关键词检索和目录查询的缺点，现在已经出现了自然语言智能答询。用户可以输入简单的疑问句，比如“如何能杀死计算机中的病毒”，搜索引擎在对提问进行结构和内容的分析之后，或直接给出提问的答案，或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于，一是使网络交流更加人性化，二是使查询变得更加方便、直接、有效。就以上面的例子来讲，如果用关键词查询，多半人会用“病毒”这个词来检索，结果中必然会包括各类病毒的介绍，病毒是怎样产生的等等许多无用信息，而用“如何能杀死计算机中的病毒”检索，搜索引擎会将怎样杀死病毒的信息提供给用户，提高了检索效率。
2、垂直主题搜索引擎有着极大的发展空间。
网上的信息浩如烟海，网络资源以惊人的速度增长，一个搜索引擎很难收集全所有主题的网络信息，即使信息主题收集得比较全面，由于主题范围太宽，很难将各主题都做得精确而又专业，使得检索结果垃圾太多。这样以来，垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一席之地。目前，一些主要的搜索引擎，都提供了新闻、Mp3、图片、Flash等的搜索，加强了检索的针对性。
3、元搜索引擎，能够提供全面且较为准确的查询结果。
现在的许多搜索引擎，其收集信息的范围、索引方法、排名规则等都各不相同，每个搜索引擎平均只能涉及到整个Web资源的30－50%，这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34%，而每一个搜索引擎的查准率不到45%。元搜索引擎(META Search Engine)是将用户提交的检索请求发送到多个独立的搜索引擎上去搜索，并将检索结果集中统一处理，以统一的格式提供给用户，因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性化搜索功能的设置和用户检索界面的友好性上，查全率和查准率都比较高。

主要的搜索引擎介绍

这里介绍的是在国内外影响比较大的主要的一些搜索引擎和分类目录站点，由于现在的站点一般都同时提供全文搜索和分类目录两种服务，所以我们按照其自有的技术进行分类和介绍。
一、主要的全文搜索引擎
1、Google（http://www.google.com/）。Google成立于1997年，几年间迅速发展成为世界范围内规模最大的搜索引擎。Google数据库现存有42.8亿个Web文件，每天处理的搜索请求已达2亿次，而且这一数字还在不断增长。Google借用Dmoz（http://dmoz.org/）的分类目录提供“网页目录”查询（http://www.google.com/dirhp?hl=zh-CN&tab=wd&ie=UTF-8&oe=UTF-8&q=），但默认网站排列顺序并非按照字母顺序，而是根据网站PageRank的分值高低排列。
2、百度（http://www.baidu.com/）。百度是国内最早的商业化（早期为其它门户网站提供搜索服务，现在的竞价排名更是日进斗金）全文搜索引擎，拥有自己的网络机器人和索引数据库，专注于中文的搜索引擎市场，除有网页搜索外，百度还有新闻、MP3、图片等搜索，并在2003年底推出“贴吧”、按地域搜索等功能。
3、中国搜索（http://www.huicong.com/）。中国搜索的前身是慧聪搜索，原慧聪搜索在联合中国网等30多家知名网站的基础上，2002年9月25日，正式组建了中国搜索联盟，经过一年多的发展，联盟成员就已达630多家，成为中国互联网一支重要的力量。由于发展迅速，慧聪集团借上市之机，将慧聪搜索更名为中国搜索，全力发展其在搜索引擎方面的业务，以打造中文搜索领域的全新品牌。
二、主要分类目录
1、雅虎中国分类目录（http://cn.yahoo.com/）。雅虎中国的分类目录是最早的分类目录，现有14个主类目，包括“商业与经济”、“艺术与人文”等，可以逐层进入进行检索，也可以利用关键词对“分类网站”进行搜索（http://m6.search.cnb.yahoo.com/dirsrch/）。此外，雅虎中国也可以对“所有网站”进行关键词搜索（http://cn.search.yahoo.com/websrch/），早期，他的搜索结果使用Google的数据，2004年2月正式推出自己的全文搜索引擎，并结束了与Google的合作。
2、新浪分类目录（http://dir.sina.com.cn/）。新浪的分类目录目前共有18个大类目，用户可按目录逐级向下浏览，直到找到所需网站。就好像用户到图书馆找书一样，按照类别大小，层层查找，最终找到需要的网站或内容。通过和其它全文搜索引擎的合作，现在，也可以使用关键词对新浪的“分类网站”或“全部网站”进行搜索。
3、搜狐分类目录（http://dir.sohu.com/）。搜狐分类目录把网站作为收录对象，具体的方法就是将每个网站首页的URL地址提供给搜索用户，并且将网站的题名和整个网站的内容简单描述一下，但是并不揭示网站中每个网页的信息内容。除此之外，也可以使用关键词对搜狐的“分类目录”或所有网站进行搜索。
4、网易分类目录（http://search.163.com/）。网易的分类目录采用“开放式目录”管理方式，在功能齐全的分布式编辑和管理系统的支持下，现有5000多位各界专业人士参与可浏览分类目录的编辑工作，极大地适应了互联网信息爆炸式增长的趋势。在加强与其它搜索引擎合作的基础上，新版搜索引擎支持使用关键词对所有网站进行检索。

百度搜索引擎工作方式

我所知道的百度搜索：由于工作的关系，小生有幸一直在使用百度的百事通企业搜索引擎（该部门现已被裁员，主要是百度的战略开始向谷歌靠拢，不再单独销售搜索引擎，转向搜索服务），据百度的销售人员称，百事通的搜索核心和大搜索的相同，只有可能版本稍低，因此我有理由相信搜索的工作方式大同小异。下面是一些简单介绍和注意点：
1、关于网站搜索的更新频率
百度搜索可以设定网站的更新频率和时间，一般对于大网站更新频度很快，而且会专门开设独立的爬虫进行跟踪，不过百度是比较勤奋的，中小网站一般也会每天更新。因此，如果你希望自己的网站更新得更快，最好是在大型的分类目录（例如yahoosina网易）中有你的链接，或者在百度自己的相关网站中，有你网站的超链接，在或者你的网站就在一些大型网站里面，例如大型网站的blog。
2、关于采集的深度
百度搜索可以定义采集的深度，就是说不见得百度会检索你网站的全部内容，有可能只索引你的网站的首页的内容，尤其对小型网站来说。
3、关于对时常不通网站的采集
百度对于网站的通断是有专门的判断的，如果一旦发现某个网站不通，尤其是一些中小网站，百度的自动停止往这些网站派出爬虫，所以选择好的服务器，保持网站24小时畅通非常重要。
4、关于更换IP的网站
百度搜索能够基于域名或者ip地址，如果是域名，会自动解析为对应的ip地址，因此就会出现2个问题，第一就是如果你的网站和别人使用相同的IP地址，如果别人的网站被百度惩罚了，你的网站会受到牵连，第二就是如果你更换了ip地址，百度会发现你的域名和先前的ip地址没有对应，也会拒绝往你的网站派出爬虫。因此建议，不要随意更换ip地址，如果有可能尽量独享ip，保持网站的稳定很重要。
5、关于静态和动态网站的采集
很多人担心是不是类似asp?id=之类的页面很难被收集，html这样的页面容易被收集，事实上情况并没有想的这么糟，现在的搜索引擎大部分都支持动态网站的采集和检索，包括需要登陆的网站都可以检索到，因此大可不必担心自己的动态网站搜索引擎无法识别，百度搜索中对于动态的支持可以自定义。但是，如果有可能，还是尽量生成静态页面。同时，对于大部分搜索引擎，依然对脚本跳转（JS）、框架（frame）、
Flash超链接，动态页面中含有非法字符的页面无可奈何。
6、关于索引的消失
前面讲过，搜索的索引需要创建，一般好的搜索，索引都是文本文件，而不是数据库，因此索引中需要删除一条记录，并不是一件方便的事情。例如百度，需要使用专门的工具，人工删除某条索引记录。据百度员工称，百度专门有一群人负责这件事情——接到投诉，删除记录，手工。当然还能直接删除某个规则下的所有索引，也就是可以删除某个网站下的所有索引。还有一个机制（未经验证），就是对于过期的网页和作弊的网页（主要是网页标题、关键词和内容不匹配），在重建索引的过程中也会被删除。
7、关于去重
百度搜索的去重不如谷歌的理想，主要还是判别文章的标题和来源地址，只要不相同，就不会自动去重，因此不必担心采集的内容雷同而很快被搜索惩罚，谷歌的有所不同，标题相同的被同时收录的不多。
补充一句，不要把搜索引擎想得这么智能，基本上都是按照一定的规则和公式，想不被搜索引擎惩罚，避开这些规则即可。

谷歌搜索排名技术

对于搜索来说，谷歌强于百度，主要的原因就是谷歌更加公正，而百度有很多人为的因素，google之所以公正，源于他的排名技术PageRank。
很多人知道PageRank，是网站的质量等级，越小表示网站越优秀。其实PageRank是依靠一个专门的公式计算出来的，当我们在google搜索关键词的时候，页面等级小的网页排序会越靠前，这个公式并没有人工干预，因此公正。
PageRank的最初想法来自于论文档案的管理，我们知道每篇论文结尾都有参考文献，假如某篇文章被不同论文引用了多次，就可以认为这篇文章是篇优秀的文章。
同理，简单的说，PageRank能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量，而是将从网页 A 指向网页 B 的链接解释为由网页 A对网页 B 所投的一票。这样，PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。此外，PageRank还会评估每个投票网页的重要性，因为某些网页的投票被认为具有较高的价值，这样，它所链接的网页就能获得较高的价值。
Page Rank的公式这里省略，说说影响Page Rank的主要因素
1、指向你的网站的超链接数量（你的网站被别人引用），这个数值越大，表示你的网站越重要，通俗的说，就是其它网站是否友情链接，或者推荐链接到你的网站；
2、超链接你的网站的重要程度，意思就是一个质量好的网站有你的网站的超链接，说明你的网站也很优秀。
3、网页特定性因素：包括网页的内容、标题及URL等，也就是网页的关键词及位置。

搜索引擎的发展趋势

新网站如何应对搜索

1、搜索引擎为什么不收录你的网站，存在以下可能（不绝对，根据各自情况不同）
a、没有任何指向链接的孤岛网页，没有被收录的网站指向你的超链接，搜索引擎就无法发现你；
b、网站中的网页性质及文件类型（如flash、JS跳转、某些动态网页、frame等）搜索引擎无法识别；
c、你的网站所在服务器曾被搜索引擎惩罚，而不收录相同IP的内容；
d、近期更换过服务器的IP地址，搜索引擎需要一定时间重新采集；
e、服务器不稳定、频繁宕机，或者经不起爬虫采集的压力；
f、网页代码劣质，搜索无法正确分析页面内容，请至少学习一下HTML的基本语法，建议使用XHTML；
g、网站用robots（robots.txt）协议拒绝搜索引擎抓取的网页；
h、使用关键词作弊的网页，网页的关键词和内容严重不匹配，或者某些关键词密度太大；
i、非法内容的网页；
j、相同网站内存在大量相同标题的网页，或者网页的标题没有实际含义；

2、新站如何做才正确（仅供参考）
a、和优秀的网站交换链接；
b、广泛登录各种大网站的网站目录列表；
c、多去质量好的论坛发言，发言要有质量，最好不要回复，发言中留下自己网站地址；
d、申请大网站的博客（新浪、网易、CSDN），并在博客中推广自己的网站；
e、使用好的建站程序，最好能生成静态页面和自动生成关键词；
f、重视每个网页的标题，以及区域，尽量把符合的关键词放在这些容易被搜索索引的位置，重视文章的开头部分，尽可能在文章的开始部分使用类似摘要的功能（可以学学网易的文章样式）。
例如“基于开源jabber(XMPP)架设内部即时通讯服务的解决方案”；
标题部分：基于开源jabber(XMPP)架设内部即时通讯服务的解决方案- 肥龙龙（expendable）的专栏 -CSDNBlog
关键词部分：<meta name=“keywords"cCOLOR:#c00000”>安装,">
文章描述部分：<metaname=“description” cCOLOR:#c00000">是著名的即时通讯服务服务器，它是一个自由开源软件，能让用户自己架即时通讯服务器，可以在Internet上应用，也可以在局域网中应用。
XMPP（可扩展消息处理现场协议）是基于可扩展标记语言（XML）的协议，它用于即时消息（IM）以及在线现场探测。它在促进服务器之间的准即时操作。这个协议可能最终允许因特网用户向因特网上的其他任何人发送即时消息，即使其操作系统和浏览器不同。XMPP的技术来自于Jabber，其实它是Jabber的核心协定，所以XMPP有时被误称为Jabber协议。Jabber是一个基于XMPP协议的IM应用，除Jabber之外，XMPP还支持很多应用。