爬虫:将廖雪峰网上资源保存为本地PDF文件

本文介绍如何使用Python爬虫配合requests、beautifulsoup和pdfkit将廖雪峰Python教程网站的内容抓取并转化为PDF文件。首先分析网站结构,接着安装必要的工具如pip、requests、beautifulsoup4和wkhtmltopdf,最后通过Python代码实现爬取和转换。
摘要由CSDN通过智能技术生成

偶然中看到[Python之禅]的推文,关注公众号之后,发现里面好多有趣的东西,于是按照作者的讲解,打算自己亲自去试一试!

爬虫:将廖雪峰网上资源保存为本地PDF文件
1. 准备工作:
1.1 分析网站结构:

网址:廖雪峰Python教程
分析:
网页的左侧是教程的目录大纲,每个URL对应到右边的一篇文章,右侧上方的是标题,中间是文章的正文部分,正文内容是我们关心的重点,我们要爬取的数据就是所有网页的正文部分,下方是用户评论区,评论区对我们没什么用,我们可以忽略它。
这里写图片描述

1.2 工具准备:

Requests和beautifulsoup是爬虫的两大神器,requests用于网络请求,beautifulsoup用于操作html数据。要把 html 文件转为 pdf,要有相应的库支持, wkhtmltopdf 就是一个非常好的工具,它可以用适用于多平台的 html 到 pdf 的转换,pdfkit 是 wkhtmltopdf 的Python封装包。

1.2.1 安装pip,如果在安装Python时没有选择安装该包

参考Python的包管理工具pip的安装与使用

python get-pip.py
1.2.2 安装requests
pip install requests
1.2.3 安装beautifulsoup
pip install beautifulsoup

出现下面的错误:
这里写图片描述
从打印结果可以看出,beautifulsoup中的内容支持python2,不支持python3。
解决方案:安装beautifulsoup4
这里写图片描述

1.2.4 安装requests:安装pdfkit
pip install pdfkit
1.2.5 下载并安装wkhtmltopdf

下载地址:wkhtmltopdf
安装完成后,将安装目录添加至系统path中。

2. 爬虫实现:

程序的目的是,要把所有的URL对应的html正文部分保存到本地,然后利用pdfkit把这些文件转换

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值