【Python3.6】：廖雪峰python教程转换成 PDF

最新推荐文章于 2024-05-26 17:33:48 发布

weixin_37637399

最新推荐文章于 2024-05-26 17:33:48 发布

阅读量6k

点赞数 1

分类专栏： Python 文章标签： python 廖雪峰

本文链接：https://blog.csdn.net/weixin_37637399/article/details/78220315

版权

开始写爬虫前，我们先来分析一下该网站https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000
的页面结构，网页的左侧是教程的目录大纲，每个 URL 对应到右边的一篇文章，右侧上方是文章的标题，中间是文章的正文部分，正文内容是我们关心的重点，我们要爬的数据就是所有网页的正文部分，下方是用户的评论区，评论区对我们没什么用，所以可以忽略它。

这里写图片描述
工具准备

弄清楚了网站的基本结构后就可以开始准备爬虫所依赖的工具包了。requests、beautifulsoup 是爬虫两大神器，reuqests 用于网络请求，beautifusoup 用于操作 html 数据。有了这两把梭子，干起活来利索，scrapy 这样的爬虫框架我们就不用了，小程序派上它有点杀鸡用牛刀的意思。此外，既然是把 html 文件转为 pdf，那么也要有相应的库支持， wkhtmltopdf 就是一个非常好的工具，它可以用适用于多平台的 html 到 pdf 的转换，pdfkit 是 wkhtmltopdf 的Python封装包。首先安装好下面的依赖包，接着安装 wkhtmltopdf

pip install requests
pip install beautifulsoup
pip install pdfkit
安装 wkhtmltopdf

Windows平台直接在 wkhtmltopdf 官网[2]下载稳定版的进行安装，安装完成之后把该程序的执行路径加入到系统环境 $PATH 变量中，否则 pdfkit 找不到 wkhtmltopdf 就出现错误 “No wkhtmltopdf executable found”。Ubuntu 和 CentOS 可以直接用命令行进行安装

$ sudo apt-get install wkhtmltopdf  # ubuntu
$ sudo

最低0.47元/天解锁文章

weixin_37637399

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
3
评论
【Python3.6】：廖雪峰python教程转换成 PDF

廖雪峰python教程转换成 PDF
复制链接

扫一扫

专栏目录

【Python3.6】：廖雪峰python教程转换成 PDF

“相关推荐”对你有帮助么？