搜索引擎的发展和蜘蛛抓取原理

转载 2013年12月02日 20:47:16

搜索引擎的发展
随着互联网的不断发展搜索引擎也经过了几代的更新。大概分为以下几个过程。
第一代搜索引擎 人工检索 1994年Yahoo! 两位创始人 由人工手动整理添加
第二代搜索引擎 爬虫抓取 1998年Google公司 机器程序来抓取
第三代搜索 智能+用户参与 机器程序+用户点评
搜索引擎抓取程序,也叫爬虫、蜘蛛程序、机器人等。
常见的蜘蛛程序有:
谷歌机器人:Googlebot
百度蜘蛛:Baiduspider
搜 狗 :Sogou web spider
360 搜索:360Spider
搜 搜 :sosospider
Bing: bingbot

seo搜索引擎
以上就是搜索引擎的发展,未来搜索引擎还有更加多的变化,搜索引擎随着用户的改变而变化

从搜索引擎输入关键词到百度给出的搜索结果的过程,仅仅需要几秒钟的就完成。百度如何在浩如烟海的互联网资源中快速将你的网站内容的信息呈现给用户?背后蕴藏着什么?搜索引擎的工作并不是仅仅是首页搜索框一样简单。
搜索引擎给用户呈现的每一条搜索结果都是对应互联网上的一个页面。每个搜索结果从产生到被搜索引擎呈现给用户都要经过四个步骤:抓取、过滤、建立索引和输出结果。
 抓取
百度蜘蛛,是百度搜索引擎的一个计算机程序,专门抓取互联网上的信息。当你的网站出现新增内容时,蜘蛛会通过互联网上某个指向该页面的链接进行访问和抓取,假如你并没有设置任何外部链接指向网站中的新增内容,则蜘蛛是无法对它进行抓取的。对已经抓取过的内容,搜索引擎会对抓取的页面进行记录,并依据这些页面对用户的重要程度安排不同频次的抓取更新工作。
     过滤
并非互联网中所有的页面都对用户有价值,例如:一些明显欺骗用户的网页,空白内容页面,死链接等,这种网页对用户、百度、站长来讲,都是没有价值的,因此百度会对其内容进行过滤,避免为用户和你的网站带来不必要的麻烦。
 建立索引
百度会对抓取回来的内容进行标记和识别,并讲这些进行存储为结构化数据,百度会将网页中的关键词进行存储和识别,便于用户搜索的内容进行匹配。
    输出结果
输入关键词之后,百度会对其进行一系列复杂的分析,并根据分析的结论在索引数据库中查找最匹配的网页,按照用户输入的关键词体现的需求强弱恶和网页的优劣打分,按最终的分数进行排列,呈现给用户。

总结:搜索引擎都是通过:抓取、过滤、建立索引、输出结果 这几个步骤的。看起来这几个步骤好像很简单,但是在搜索引擎里面经过的不是这么简单的时间。 所以我们对于搜索引擎蜘蛛抓取原理有一些简单的了解就行了。

以上内容由郑州seo整理发布

相关文章推荐

搜索引擎蜘蛛的基本原理

搜索引擎用来爬行和访问页面的程序被称为蜘蛛,也叫做机器人。搜素引擎蜘蛛访问网站页面的时候就和你使用浏览器访问的过程一样,蜘蛛发出访问页面的请求,服务器会返回HTML代码,蜘蛛程序把这些代码存到原来页面...
  • fk5431
  • fk5431
  • 2016年09月18日 19:32
  • 1894

网络蜘蛛及搜索引擎原理

  • 2011年04月13日 16:47
  • 29KB
  • 下载

搜索引擎(网络蜘蛛及搜索引擎基本原理)

2006-05-25网络蜘蛛及搜索引擎基本原理TAG:搜索相关搜索引擎的工作原理大致可以分为:  搜集信息:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器人程...

搜索引擎蜘蛛爬虫 User Agent 一览(便于采集)

今天分析研究了两个网站的 Apache 日志,分析日志虽然很无聊,但却是很有意义的事情,比如跟踪 SPAM 的 User Agent。顺便整理出一些搜索引擎爬虫的 User Agent,在这里分享一下...

搜索引擎技术揭密:网络蜘蛛

(1) the original article seems to be here: http://www.enet.com.cn/article/2004/0718/A20040718325400....

搜索引擎 蜘蛛程序源代码

一、 国外开发的相关程序1、Nutch官方网站 http://www.nutch.org/中文站点 http://www.nutchchina.com/最新版本:Nutch 0.7.2 Release...
  • ctknq
  • ctknq
  • 2011年06月13日 14:09
  • 1250

网站日志中的搜索引擎蜘蛛返回HTTP状态代码

SEO一定要学会读懂网站日志中的搜索引擎蜘蛛返回HTTP状态代码。今天核桃把这篇:《网站日志返回HTTP状态代码及其定义分析大全》转载过来让大家看看,了解下SEO最基础的日志分析要掌握的内容。很重要的...

搜索引擎研究---网络蜘蛛程序算法相关资料 Part VI (共5部分)

搜索引擎研究---网络蜘蛛程序算法相关资料 1、解析HTML文件 这里有两个为了查找A HREF来解析HTML文件方法——一个麻烦的方法和一个简单的方法。 如果你选择麻烦的方法,...
  • my98800
  • my98800
  • 2016年07月18日 09:15
  • 158

判断IP是否为搜索引擎蜘蛛或爬虫

判断IP是否为搜索引擎蜘蛛或爬虫 主要是通过向DNS服务器发送反向域名解析查询,获取指定ip的相关域名信息来判断是否为相应搜索引擎或爬虫.  通过 dig 或者 host 工具皆可查询. Ex...

【代码】php 捕捉各大搜索引擎的蜘蛛、爬虫的iP和访问途径

很多站长、博主可能最关心的就是自己网站的收录情况,一般情况下我们可以通过查看空间服务器的日志文件来查看搜索引擎到底爬取了我们哪些个页面,不过,本人觉得很抽象,所以我就改了一下同事给我的一个爬行记录的程...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:搜索引擎的发展和蜘蛛抓取原理
举报原因:
原因补充:

(最多只允许输入30个字)