【爬虫实践】用递归获取网站的所有内链和外链

最新推荐文章于 2024-04-11 22:11:34 发布

剑客Sam

最新推荐文章于 2024-04-11 22:11:34 发布

阅读量2.9k

点赞数 4

分类专栏： python爬虫文章标签： python 数据挖掘 http

本文链接：https://blog.csdn.net/mysm123456789/article/details/104988183

版权

【爬虫实践】用递归获取网站的所有内链和外链

环境：Windows7 +Python3.6+Pycharm2017
目标：从一个网站的顶层开始，爬取该网站所有内链和外链，便于绘制网站地图！
通常网站的深度有5层左右的网页，广度有10个网页，所有大部分网站的页面数量都在10的5次方，就是10万个以内，但是python递归默认限制是1000，这就需要用sys模块的设置突破1000的限制。为了运行控制方便，这里增加了计数器变量iii，可也根据自己需要取消计数器。由于代码不长，也比较简单，直接上代码了！

代码如下：

#coding=utf-8
from urllib.parse import urlparse
from urllib.request import Request
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re,datetime,random
import sys

sys.setrecursionlimit(5000) #递归需要超过1000时的解决方式是手工设置递归调用深度,这里设置为5000

internalLinks = set()
externalLinks = set()
iii = 0
random.seed(datetime.datetime.now()

最低0.47元/天解锁文章

剑客Sam

关注

4
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
【爬虫实践】用递归获取网站的所有内链和外链

【爬虫实践】用递归获取网站的所有内链和外链环境：Windows7 +Python3.6+Pycharm2017目标：从一个网站的顶层开始，爬取该网站所有内链和外链，便于绘制网站地图！通常网站的深度有5层左右的网页，广度有10个网页，所有大部分网站的页面数量都在10的5次方，就是10万个以内，但是python递归默认限制是1000，这就需要用sys模块的设置突破1000的限制。为了运行控制方便...
复制链接

扫一扫