想要把教程变成PDF有三步:
1、先生成空html,爬取每一篇教程放进一个新生成的div,这样就生成了包含所有教程的html文件(BeautifulSoup)
2、将html转换成pdf(wkhtmltopdf)
3、由于反爬做的比较好,在爬取的过程中还需要代理ip(免费 or 付费)
开始使用
将一段文档传入 BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.
如下所示:
首先,文档被转换成Unicode,并且HTML的实例都被转换成Unicode编码.
然后,Beautiful Soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么Beautiful Soup会选择指定的解析器来解析文档.#价位@762459510 免费领取python、爬虫配套实操资料#
对象的种类
Beautiful Soup 将复杂 HTML 文档转换成一个复杂的树形结构,每个节点都是 Python 对象,所有对象可以归纳为 4 种: Tag , NavigableString , BeautifulSoup , Comment .
Tag:通俗点讲就是 HTML 中的一个个标签,类似 div,p。
NavigableString:获取标签内部的文字,如,soup.p.string。
BeautifulSoup:表示一个文档的全部内容。
Comment:Comment 对象是一个特殊类型的 NavigableString 对象,其输出的内容不包括注释符号.
Tag
Tag就是html中的一个标签,用BeautifulSoup就能解析出来Tag的具体内容,具体的格式为soup.name,其中name是html下的标签,具体实例如下&#