spider技术综述

最新推荐文章于 2023-08-12 14:14:18 发布

soso_blog

最新推荐文章于 2023-08-12 14:14:18 发布

阅读量1w

点赞数

分类专栏：技术分享文章标签： url 互联网搜索引擎服务器 google 存储

本文链接：https://blog.csdn.net/soso_blog/article/details/5771350

版权

Spider系统在搜索引擎中用于互联网数据采集，分为全网Spider和聚焦Spider。文章介绍了Url存储库要求的可扩展性、抓取调度策略如深度优先、广度优先和最优调度优先，以及已抓取Url的更新抓取挑战，包括站点压力评估和更新周期的设定。Google的优雅抓取方式在行业中处于领先地位。

摘要由CSDN通过智能技术生成

文/腾讯soso 邓大付

Spider系统是搜索引擎当中进行互联网上数据采集的一个核心子系统。在这个子系统当中，通常先种入一批种子Url，Spider对这些种子Url采集之后将链接提取入库，然后再对新入库的Url进行采集，并且负责对采集过的Url进行更新采集，如此循环。

随着各种垂直搜索引擎的不断发展，整个Spider在功能上又分为传统的收集互联网上所有数据的大Spider和服务于某个专门领域的聚焦Spider。两类Spider的不同之处在于，后者需要一个过滤器来过滤掉那些专门领域不要的Url。从架构上来讲，两类Spider通常都会采用分布式的架构。从技术实现上来说，Spider通常都会包括Url存储库，抓取调度模块，页面采集模块，链接分析和抽取模块，反垃圾模块等几个核心模块。本文就Url存储、抓取调度的主流技术和技术难点做一个简单的描述。

1：Url存储库：近些年互联网发展迅猛，互联网上的Url数量也极为庞大，所以对Url库的核心要求之一就是可扩展性必须要很强，在爬行过程中Url数目逐步增大时，要能及时的进行扩展。另外一个要求就是能便于抓取调度技术的实施。当然，对容错性和负责均衡方面也需要有充足的考虑。

2：抓取调度：如果把Spider看成互联网上的蜘蛛的话，抓取调度模块就是蜘蛛的大脑，它会根据Url库里面收录的Url的情况，来调度指挥蜘蛛先爬哪些Url，后爬哪些Ur

最低0.47元/天解锁文章

soso_blog

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
12
评论
spider技术综述

 文/腾讯soso邓大付 Spider系统是搜索引擎当中进行互联网上数据采集的一个核心子系统。在这个子系统当中，通常先种入一批种子Url，Spider对这些种子Url采集之后将链接提取入库，然后再对新入库的Url进行采集，并且负责对采集过的Url进行更新采集，如此循环。 随着各种垂直搜索引擎的不断发展，整个Spider在功能上又分为传统的收集互联网上所有数据的大Spider和服务于某个专门领域的聚焦Spider。两类Sp
复制链接

扫一扫

专栏目录