python批量保存网页内容到PDF

智能优化_数据分析_AI算法

已于 2022-10-08 15:21:20 修改

阅读量1.5k

点赞数 1

分类专栏： python实用文章标签： python pycharm 开发语言

于 2022-10-08 15:13:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AI_Optimization/article/details/123576755

版权

python实用专栏收录该内容

7 篇文章 2 订阅

订阅专栏

最近学某人给我提了一个需求，需要批量下载某网站的网页保存PDF中，对于熟悉python的大佬们，应该是一个很简单的任务了，今天想借助这个机会想通过这篇博客给小白们介绍一下如何利用python完成这个简单功能。

1.环境安装与配置

需要完成这个功能，你首先需要下载一个Pycharm作为python的编译器，然后还需要Anaconda管理虚拟环境和python的一些包，如果使用的不多，Anaconda可以不装，改成安装简单的python解释器。具体Pycharm+Anaconda安装教程参考我的另一篇博客：Pycharm+Anaconda的python虚拟环境配置最详细教程_智能优化_数据分析_AI算法的博客-CSDN博客

2.下载案例

2.1获得资源

众多周知，我们上网的过程是在浏览器输入网址，然后网站的后台服务器返回给我们需要看的资源。python程序则是通过代码模拟request请求，然后将返回得到html资源内容通过筛选和解析得到我们需要的内容。通过以下两行代码，我们就可以模拟访问该网址，并获得其网站的详细内容，并转换成文本。

r=requests.get("https://www.court.gov.cn/shenpan-gengduo-77.html")
text = r.text

在上述网站中，有诸多的指导案例，我们在访问列表网页的时候，列表中有很多具体案例的链接，我们需要从首页的html中利用正则表达式获取对应的资源的网址和文件名，然后依次访问每一个指导案例并将其保存下来。

然后我们还需要使用到BeautifulSoup工具，该工具可以配合正则化对html网页的代码进行查找和匹配，例如通过以下代码我们可以完成对title的选择。

soup = BeautifulSoup(text, "html.parser")
txt = soup.select('title')

2.2保存到pdf

将html格式的网页保存成pdf这里需要借助工具pdfkit，需要在python中安装这个包。然后还需要在安装wkhtmtopdf这个软件下载地址：wkhtmltopdf。然后在通过以下这行代码完成

pdfkit.from_url(url, save_path, configuration=config)

最终批量保存下来的文件如下所示：

打开后与原网站显示效果完全相同。

智能优化_数据分析_AI算法

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
python批量保存网页内容到PDF

最近某人给我提了一个需求，需要批量保存某网站的网页到PDF中，对于熟悉python的大佬们，应该是一个很简单的任务了，今天想借助这个机会想通过这篇博客给小白们介绍一下如何利用python完成这个简单功能。1.环境安装与配置需要完成这个功能，你首先需要下载一个Pycharm作为python的编译器，然后还需要Anaconda管理虚拟环境和python的一些包，如果使用的不多，Anaconda可以不装，改成安装简单的python解释器。具体Pychar...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

智能优化_数据分析_AI算法 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。