网络爬虫3种常见类型

最新推荐文章于 2024-07-26 17:44:34 发布

m0_48506962

最新推荐文章于 2024-07-26 17:44:34 发布

阅读量6.4k

点赞数

本文链接：https://blog.csdn.net/m0_48506962/article/details/110821314

版权

本文介绍了网络爬虫的三种常见类型：通用网络爬虫广泛用于搜索引擎，抓取大量网页；批量型爬虫针对特定目标抓取网页，达到目标即停止；增量式爬虫则持续抓取并更新网页，有效减少重复下载，提高效率。这三种爬虫各有特点，适用于不同的应用场景。

摘要由CSDN通过智能技术生成

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。根据系统结构和实现技术，实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

盘点网络爬虫几种常见类型：

一、通用网络爬虫

通用网络爬虫也叫全网爬虫，通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分，主要为门户网站站点搜索引擎和大型 Web 服务提供商采集网络数据。由于商业服务原因，它们的技术细节不怎么公布出来。这类网络爬虫的爬行范畴和数量极大，对于爬行速度和储存空间要求较高，对于爬行网页页面的顺序要求相对较低，同时因为待刷新的页面过多，通常采用并行工作方式，但需要长时间才能刷新一次页面。尽管存在一定缺点，通用网络爬虫适用于为搜索引擎搜索广泛的主题，有较强的应用价值。

二、批量型网络爬虫

批量型网络爬虫有比较明确的抓取范围和目标，当爬虫达到这个设定的目标后，即停止抓取过程。至于具体目标可能各异，也许是设定抓取一定数量的网页即可，也许是设定抓取的时间等，各不一样。

三、增量式网络爬虫

增量型爬虫与批量型爬虫不同，会保持持续不断的抓取，对于抓取到的网页，要定期更新，因为互联网网页处于不断变化中，它可以在一定程度上确保所爬行的页面是尽量新的网页。和周期性爬行和刷新页面的网络爬虫对比，增量式爬虫只会在需要的时候爬行新产生或发生更新的网页，并不重新下载没有发生变化的网页页面，可有效减少数据下载量，及时更新已爬行的网页，缩减时间和空间上的耗费，可是增多了爬行算法的复杂度和实现难度。