Python爬取：Python教程并制作成pdf

最新推荐文章于 2024-07-27 12:20:46 发布

燕山588

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量195

点赞数

分类专栏：编程程序员 python 文章标签： python 爬虫 pycharm pygame sublime text

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kj7762/article/details/120101940

版权

想要把教程变成PDF有三步：

1、先生成空html，爬取每一篇教程放进一个新生成的div，这样就生成了包含所有教程的html文件(BeautifulSoup)

2、将html转换成pdf(wkhtmltopdf)

3、由于反爬做的比较好，在爬取的过程中还需要代理ip(免费 or 付费)

开始使用

将一段文档传入 BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.

如下所示：

首先,文档被转换成Unicode,并且HTML的实例都被转换成Unicode编码.

然后,Beautiful Soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么Beautiful Soup会选择指定的解析器来解析文档.#价位@762459510 免费领取python、爬虫配套实操资料#

对象的种类

Beautiful Soup 将复杂 HTML 文档转换成一个复杂的树形结构,每个节点都是 Python 对象,所有对象可以归纳为 4 种: Tag , NavigableString , BeautifulSoup , Comment .

Tag：通俗点讲就是 HTML 中的一个个标签，类似 div，p。

NavigableString：获取标签内部的文字，如，soup.p.string。

BeautifulSoup：表示一个文档的全部内容。

Comment：Comment 对象是一个特殊类型的 NavigableString 对象，其输出的内容不包括注释符号.

Tag

Tag就是html中的一个标签，用BeautifulSoup就能解析出来Tag的具体内容，具体的格式为soup.name,其中name是html下的标签，具体实例如下&#

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬取：Python教程并制作成pdf

想要把教程变成PDF有三步：1、先生成空html，爬取每一篇教程放进一个新生成的div，这样就生成了包含所有教程的html文件(BeautifulSoup)2、将html转换成pdf(wkhtmltopdf)3、由于反爬做的比较好，在爬取的过程中还需要代理ip(免费 or 付费)开始使用将一段文档传入 BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.如下所示：首先,文档被转换成Unicode,并且HTML的实例都被转换成Unico
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。