python-递归爬虫爬取网站所有子链接

最新推荐文章于 2023-02-02 10:04:18 发布

qq_44812712

最新推荐文章于 2023-02-02 10:04:18 发布

阅读量4.4k

点赞数 3

分类专栏：爬虫文章标签： python 正则表达式爬虫递归算法 url

本文链接：https://blog.csdn.net/qq_44812712/article/details/118567176

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

python-递归爬虫爬取网站所有子链接

python - 爬虫递归抓取网站信息

实现思路：

抓取网站所有信息并保存；
是用正则表达式提取子链接；
递归爬取子链接，保存爬取html信息

# 导入模块
import requests
import re
from urllib import parse

exist_url = []  # 存放已爬取的网页
writeCount = 0
urls = []

def load(url):
    # 检查该url是否爬过
    # 爬取URL
    global writeCount
    req = requests.get(url)
    html = req.content
    # urls.append(url)
    # 正则表达式提取子链接
    con = re.findall(r'(?<=href=")[^\"]+[^index].htm', html.decode('utf-8')) 
    
    # 存入所有子链接
    for x in range(0, len(con)):
        url2 = con[x]
        url1 = 'https://'  # 解析网页中所有子URL
        # 将链接拼接
        newUrl = parse.urljoin(url1, url2)
        urls.append(newUrl)
    print(urls)

    # 去掉已爬取的链接和重复链接
    unique_list = list(set(urls) - set(exist_url))
    print(unique_list)

    # 将读取内容写入文件
    with open('file/index' + str(writeCount) + '.txt', 'w', encoding='utf-8') as fp:
        fp.write(req.text)
    writeCount += 1
    # 遍历所有子URL再次调用
    for i in range(0, len(unique_list)):
        load(unique_list[i])

# 调用爬虫函数
url = 'https://'
load(url)

qq_44812712

关注

3
点赞
踩
33

收藏

觉得还不错? 一键收藏
0
评论
python-递归爬虫爬取网站所有子链接

import requestsimport refrom urllib import parseexist_url = [] # 存放已爬取的网页writeCount = 0urls = []def load(url):# 检查该url是否爬过# 爬取URLglobal writeCountreq = requests.get(url)html = req.content# urls.append(url)con = re.findall(r’(?<=href=")["]+
复制链接

扫一扫