爬虫：将廖雪峰网上资源保存为本地PDF文件

最新推荐文章于 2024-07-25 11:44:45 发布

Q-沐风听雨-

最新推荐文章于 2024-07-25 11:44:45 发布

阅读量5.1k

点赞数 2

分类专栏： Python学习笔记文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nature_XD/article/details/70229444

版权

本文介绍如何使用Python爬虫配合requests、beautifulsoup和pdfkit将廖雪峰Python教程网站的内容抓取并转化为PDF文件。首先分析网站结构，接着安装必要的工具如pip、requests、beautifulsoup4和wkhtmltopdf，最后通过Python代码实现爬取和转换。

摘要由CSDN通过智能技术生成

偶然中看到[Python之禅]的推文，关注公众号之后，发现里面好多有趣的东西，于是按照作者的讲解，打算自己亲自去试一试！

爬虫：将廖雪峰网上资源保存为本地PDF文件

1. 准备工作：

1.1 分析网站结构：

网址：廖雪峰Python教程
分析：
网页的左侧是教程的目录大纲，每个URL对应到右边的一篇文章，右侧上方的是标题，中间是文章的正文部分，正文内容是我们关心的重点，我们要爬取的数据就是所有网页的正文部分，下方是用户评论区，评论区对我们没什么用，我们可以忽略它。
这里写图片描述

1.2 工具准备：

Requests和beautifulsoup是爬虫的两大神器，requests用于网络请求，beautifulsoup用于操作html数据。要把 html 文件转为 pdf，要有相应的库支持， wkhtmltopdf 就是一个非常好的工具，它可以用适用于多平台的 html 到 pdf 的转换，pdfkit 是 wkhtmltopdf 的Python封装包。

1.2.1 安装pip，如果在安装Python时没有选择安装该包

参考Python的包管理工具pip的安装与使用

python get-pip.py

1.2.2 安装requests

pip install requests

1.2.3 安装beautifulsoup

pip install beautifulsoup

出现下面的错误：
这里写图片描述
从打印结果可以看出，beautifulsoup中的内容支持python2，不支持python3。
解决方案：安装beautifulsoup4

1.2.4 安装requests：安装pdfkit

pip install pdfkit

1.2.5 下载并安装wkhtmltopdf

下载地址：wkhtmltopdf
安装完成后，将安装目录添加至系统path中。

2. 爬虫实现：

程序的目的是，要把所有的URL对应的html正文部分保存到本地，然后利用pdfkit把这些文件转换

最低0.47元/天解锁文章

Q-沐风听雨-

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
9
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。