偶然中看到[Python之禅]的推文,关注公众号之后,发现里面好多有趣的东西,于是按照作者的讲解,打算自己亲自去试一试!
爬虫:将廖雪峰网上资源保存为本地PDF文件
1. 准备工作:
1.1 分析网站结构:
网址:廖雪峰Python教程
分析:
网页的左侧是教程的目录大纲,每个URL对应到右边的一篇文章,右侧上方的是标题,中间是文章的正文部分,正文内容是我们关心的重点,我们要爬取的数据就是所有网页的正文部分,下方是用户评论区,评论区对我们没什么用,我们可以忽略它。
1.2 工具准备:
Requests和beautifulsoup是爬虫的两大神器,requests用于网络请求,beautifulsoup用于操作html数据。要把 html 文件转为 pdf,要有相应的库支持, wkhtmltopdf 就是一个非常好的工具,它可以用适用于多平台的 html 到 pdf 的转换,pdfkit 是 wkhtmltopdf 的Python封装包。
1.2.1 安装pip,如果在安装Python时没有选择安装该包
python get-pip.py
1.2.2 安装requests
pip install requests
1.2.3 安装beautifulsoup
pip install beautifulsoup
出现下面的错误:
从打印结果可以看出,beautifulsoup中的内容支持python2,不支持python3。
解决方案:安装beautifulsoup4
1.2.4 安装requests:安装pdfkit
pip install pdfkit
1.2.5 下载并安装wkhtmltopdf
下载地址:wkhtmltopdf
安装完成后,将安装目录添加至系统path中。
2. 爬虫实现:
程序的目的是,要把所有的URL对应的html正文部分保存到本地,然后利用pdfkit把这些文件转换