通过404链接验证爬虫来理解深度优先和宽度优先遍历
需求
事情是这样的,最近需要把一个域名下面的所有404的页面链接给抓出来,因为这个域名下面的链接实在太多了,人工的方法肯定不行,网上也没有找到什么现成的工具,但是我是谁啊,脚本小能手啊,那就自己用python撸一个咯
深度优先遍历
一开始是这么想的,拿到根路径之后先把所有的子路径拿出来,分别用urllib去验证这些路径,如果验证不通过则记录下来,否则则用该子路径作为根路径去遍历他的子路径,废话不多说直接上代码
# 递归 深度优先遍历
import urllib.request
from urllib.re
原创
2020-06-18 16:42:17 ·
273 阅读 ·
0 评论