Python爬虫：抓取Python教程保存为PDF电子书

最新推荐文章于 2024-06-11 20:20:32 发布

永无乡

最新推荐文章于 2024-06-11 20:20:32 发布

阅读量5.1k

点赞数 1

分类专栏： Python爬虫文章标签： python 爬虫 pdf

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JosephPai/article/details/78897562

版权

本文介绍了如何使用Python爬虫结合wkhtmltopdf工具，将网页内容转换为PDF电子书。详细讲解了环境配置、安装步骤、可能出现的问题及解决方案，并提供了完整代码链接。

摘要由CSDN通过智能技术生成

Github传送门：https://github.com/JosephPai/PythonCrawler-Html2Pdf
欢迎点赞~

环境

python3.6

准备工具

爬虫依旧采用requests+BeautifulSoup组合，reuqests 用于网络请求，beautifusoup 用于操作 html 数据。
此外，涉及到把 html 文件转为 pdf，我们采用 wkhtmltopdf ，它可以用适用于多平台的 html 到 pdf 的转换，
pdfkit 是 wkhtmltopdf 的Python封装包。首先安装好下面的依赖包

pip install requests
pip install beautifulsoup4
pip install pdfkit

pdfkit使用参考：pdfkit文档

安装 wkhtmltopdf

Windows平台直接在 http://wkhtmltopdf.org/downloads.html 下载稳定版的 wkhtmltopdf 进行安装，
安装完成之后把该程序的执行路径加入到系统环境 $PATH 变量中，
否则 pdfkit 找不到 wkhtmltopdf 就出现错误 “No wkhtmltopdf executable found”。

在运行程序过程中可能会出现no such file or directory:b’’
这种错误在python中出现时，意味着有.exe文件需要被调用，而该.exe文件没有被安装或者在控制面板的环境变量中没有添加该.exe的路径。
请再三确认是否已经将wkhtmltopdf安装的bin文件夹路径添加到path中
如果仍旧无法解决问题，程序中需添加代码

config=pdfkit.configuration(wkhtmltopdf=r"D:\software\wkhtmltopdf\bin\wkhtmltopdf.exe"

最低0.47元/天解锁文章

关注

1
点赞
踩
24

收藏

觉得还不错? 一键收藏
5
评论
Python爬虫：抓取Python教程保存为PDF电子书

Github传送门：https://github.com/JosephPai/PythonCrawler-Html2Pdf 欢迎点赞~环境python3.6准备工具爬虫依旧采用requests+BeautifulSoup组合，reuqests 用于网络请求，beautifusoup 用于操作 html 数据。此外，涉及到把 html 文件转为 pdf，我们采用 wkhtmltopdf ，它可以
复制链接

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。