浅谈利用python保存整个网站页面

Python爬虫实践：全站页面抓取与保存

最新推荐文章于 2022-09-19 15:00:26 发布

gorquanwu

最新推荐文章于 2022-09-19 15:00:26 发布

阅读量1.6w

点赞数 7

CC 4.0 BY-SA版权

分类专栏： python 文章标签：爬虫 python

本文链接：https://blog.csdn.net/gorquanwu/article/details/81739589

本文介绍了使用Python进行全站爬虫的步骤，包括抓取全站URL、获取CSS、JS、图片链接，获取文件名以及将文件保存到本地。作者通过urllib.request模块访问网站，逐步遍历获取子页面URL，并分享了处理CSS、JS、图片链接的方法，以及如何使用Python的IO操作进行文件保存。同时，提到了在实践中遇到的问题和解决方案。

空闲的时候随便找了一个网站练习一下爬虫，总结一下自己写爬虫遇到的知识点

实现的功能

抓取全站URL

获取CSS，JS， img等文件连接

获取文件名字

保存文件到本地

用到的模块

urllib

bs4

第一部分：抓取全站URL

先贴上代码

# 获取当前页面子网站子网站
def get_urls(url, baseurl, urls):
    with request.urlopen(url) as f:
        data = f.read().decode('utf-8')
        link = bs(data).find_all('a')
        for i in link:
            suffix = i.get('href')
            # 设置排除写入的子连接
            if suffix == '#' or suffix == '#carousel-example-generic' or 'javascript:void(0)' in suffix:
                continue
            else:
                # 构建urls
                childurl = baseurl + suffix
                if childurl not in urls:
                    urls.append(childurl)

# 获取整个网站URL
def getallUrl(url, baseurl, urls):
    get_urls(url, baseurl, urls)
    end = len(urls

最低0.47元/天解锁文章

200万优质内容无限畅学