搜索引擎工作原理

转载 2011年10月13日 10:00:38

搜索引擎工作原理

目录

 [隐藏]

探寻蜘蛛和机器人

搜索引擎要知道网上的新生事物,就得派人出去收集,每天都有新的网站产生,每天都有网站内容的更新,而且这些产生的网站数量、更新的网站内容是爆炸式的,靠人工是不可能完成这个任务的,所以搜索引擎的发明者就设计了计算机程序,派它们来执行这个任务。

探测器有很多叫法,也叫Crawler(爬行器)、spider(蜘蛛)、robot(机器人)。这些形象的叫法是描绘搜索引擎派出的蜘蛛机器人爬行在互联网上探测新的信息,Google把它的探测器叫做Googlebot,百度就叫Baiduspider,Yahoo称为Slurp,无论它们叫什么,它们都是人们编制的计算机程序,由它们不分昼夜的访问各个网站,取回网站的内容、标签、图片等,然后依照搜索引擎的算法给它们定制索引。

网络蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

当抓取到这些网页后,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

建立网页索引数据库后,当用户输入关键词搜索,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 

最后,由检索器将搜索结果的链接地址和页面内容摘要等内容组织起来,返回给用户。

如何辨别搜索引擎机器人身份

搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循robots.txt规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器人身份是否合法。 

在你的服务器日志文件中,可见每次访问的路径和相应的IP地址,如果是机器人来访,则user-agent会显示Googlebot或MSNBot等搜索引擎漫游器名称,每个搜索引擎都有自己的user-agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。 

目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过DNS反向查询找出搜索引擎[机器人]IP地址对应的主机名称;用主机名查找IP地址以确认该主机名与IP地址匹配。 

首先,使用DNS反向查询(Reverse DNS Lookup),找出机器人IP地址对应的主机名称。主流搜索引擎的主机名称通常情况下应是这样的:

  • Google:主机名称应包含于googlebot.com域名中,如:crawl-66-249-66-1.googlebot.com;
  • MSN:主机名称应包含于search.live.com域名中,如:livebot-207-46-98-149.search.live.com;
  • Yahoo:主机名称应包含于inktomisearch.com域名中,如:ab1164.inktomisearch.com。

最后,做一次DNS查询,用主机名查找IP地址(Forward DNS Lookup),以确认该主机名与IP地址匹配。由此证明该机器人是合法的。 
现在,如果发现一个机器人将自己伪装成合法搜索引擎漫游器,你就可以通过服务器上的设置来阻止这个非法机器人。

如何吸引蜘蛛

分析一下,要想蜘蛛经常光顾自己的站,首先要先把蜘蛛引过来。怎么引?最简单的办法是你自己创造个关键字,注意要保证关键字的唯一性,百度搜索到的结果相关性要低。那关键字要在你首页出现,而且有相关解释,目的是围绕关键字做相关内容。

然后去搜索引擎更新快的地方,发布相关信息。你发表的文章要围绕你创造的关键字写,关键字可以使用一两次加粗,色彩,或者下划线等,关键字连接到你首页地址,内容里再加一两次你首页地址(传说中的软文)。

最关键字加好了,信息也发布了,最关键的就是要触发搜索引擎检测数据库,使蜘蛛会顺着那些新内容找到你首页!怎么触发?还用问吗?刚做的关键字,具有唯一性,而且相关性低。如果有人搜索那关键字,蜘蛛检索时候会优先考虑最合适的页面,也许搜索引擎暂时没显示收录你的站,但是蜘蛛肯定已经闻风而动了。

原理已经介绍了,吸引蜘蛛还有许多方法,简单的总结一下:

  一、增加原创的文字,适当围绕关键字优化,强烈建议在title里也加一下。这里的原创不是说纯自己写的就完事了,你还要搜索一下别人是不是写过类似的,如果有劝你还是另换话题吧。二、在百度权重高,更新快的地方发布围绕关键字相关内容的信息和你站点连接,让百度蜘蛛能够从多个地方转到你的站上去。我常用的有百度知道、贴吧以及各大网摘。

  三、围绕这个关键字进行推广,发布大量外链,让检索结果定位到你的站。

相关内容

初级汇编语言及计算机工作原理

-
  • 1970年01月01日 08:00

浅谈搜索引擎工作原理

做为网页开发者,仅仅会编写代码完成业务功能是远远不够的,你做的网站最后需要搜索引擎这个公共入口来呈现给用户。所以搜索引擎优化是及其重要的,而要了解如何优化自己的网站从而适应搜索引擎,我们需要先了解搜索...
  • mevicky
  • mevicky
  • 2015-09-13 14:23:19
  • 2151

Web搜索引擎工作原理和体系结构

1、Web搜索引擎的基本要求搜索引擎是一个网络应用软件系统,如下图所示,对它有如下基本要求。 能够接受用户通过浏览器提交的查询词或者短语,记作q,例如“大数据”,“Spark”等等。 在一个可...
  • y396397735
  • y396397735
  • 2015-11-03 15:51:01
  • 1016

搜索引擎的基本工作原理

搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对...
  • basycia
  • basycia
  • 2016-02-17 14:57:15
  • 639

搜索引擎原理:数据预处理

 搜索引擎原理中,搜索引擎工作流程从大的方面有三点:数据采集、数据预处理、查询服务,这里和大家分享一下数据预处理,提亲说明的是,其中涉及一些专业的词汇,在我博客是加了锚文本的,这里没有,看不懂的...
  • gaosini0001
  • gaosini0001
  • 2015-06-06 20:49:26
  • 408

搜索引擎的工作原理

这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索...
  • pennyliang
  • pennyliang
  • 2006-09-06 22:17:00
  • 4164

搜索引擎 工作原理

  • 2009年04月13日 14:08
  • 79KB
  • 下载

浅谈SEO搜索引擎基本工作原理

搜索引擎工作原理一共包括三个过程:网页搜索,预处理信息,建立索引,那么今天铭伟就把搜索引擎的工作原理进行解析一篇。 1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Sp...
  • mwseo
  • mwseo
  • 2017-11-08 10:39:38
  • 85

百度搜索引擎工作原理

关于百度以及其它搜索引擎的工作原理,其实大家已经讨论过很多,但随着科技的进步、互联网业的发展,各家搜索引擎都发生着巨大的变化,并且这些变化都是飞快的。我们设计这个章节的目的,除了从官方的角度发出一些声...
  • qizhiqq
  • qizhiqq
  • 2017-05-12 17:24:16
  • 1815

Compass 更智能的搜索引擎(1)--入门

学完了前面的Lucene系列教程: 全文检索 Lucene(1)–入门 全文检索 Lucene(2)–进阶 全文检索 Lucene(3)–分页 全文检索 Lucene(4)–高亮 Lucene确实是个...
  • Marksinoberg
  • Marksinoberg
  • 2016-08-02 22:01:45
  • 7447
收藏助手
不良信息举报
您举报文章:搜索引擎工作原理
举报原因:
原因补充:

(最多只允许输入30个字)