深度优先策略:优先往纵向挖掘深入,直到到达指定的深度或者该节点不存在邻接节点,才会访问第二条路。
广度优先策略:先访问完一个深度的所有节点,再访问更深一层的所有节点。
简单的看:
深度优先爬虫路径:A-B-E-F-C-D
广度优先爬虫路径:A-B-C-D-E-F
import requests
import re
import time
exist_urls=[]
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36',
}
#定义一个用来获取页面所有符合条件的链接函数
def scrapypy