服务器处理蜘蛛抓取网页的过程,搜索引擎抓取网页的蜘蛛爬行流程

搜索引擎是怎样抓取网页的?

要抓取网页搜索引擎首先会派出爬虫程序(也就是常说的蜘蛛),访问服务器或者网页,爬虫程序最开始访问的是那些比较流行的网站或一些访问量大的服务器。

在爬虫程序访问网页的过程中,会从一个网站开始搜索网站里的文字,然后爬行发现网站里的每一个链接,然后顺着链接继续爬行其他的页面,也就是网页上的内链或外链,有助于蜘蛛爬行找到更多的页面。

9f0c0bbc2474b82493fab1e37b21afdd.png

爬虫访问服务器或者网页,会把网页里面的信息,包括不同的文字、链接等信息以及所属的网页地址做出标记,然后把不同的信息根据搜索引擎系统自己的标准规则进行分类整理。最后把这些数据压缩,为了节省空间或者加密放到自己的硬盘上,供人们搜索。所以搜索引擎搜索的结果并不是因特网而是因特网在搜索引擎上的拷贝(搜索引擎的数据库)的结果,可以说搜索只是给了人们提供了一个搜索结果的导航,只有点击进入该网页才算是通过互联网访问到该网页。

像google的话,最开始同时3、4个爬虫,每个爬虫开将近300个线程,每秒钟能够爬行超过100个网页,爬虫爬行网页然后做出记录并带回到自己的服务器上,这一过程持续进行产生大量的数据,搜索引擎再以搜索结果的形式展现给搜索的人们。

www.lechu100.com/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值