爬取策略
关注公众号“轻松学编程”了解更多。
在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面重点介绍几种常见的抓取策略:
一、深度优先遍历策略
深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。我们以下面的图为例:遍历的路径:A-F-G E-H-I B C D
1、递归实现流程:
a.获取种子链接 b.设置爬取深度 c.判断是否超出深度 d.爬取数据 e.生成子类url链接池 f.遍历子链接池,去重 g.深度加1,递归
import re
import requests
# 设置请求头
headers =