BeautifulSoup中的HTML解析器对比

最新推荐文章于 2023-07-12 10:52:37 发布

Leo-Woo

最新推荐文章于 2023-07-12 10:52:37 发布

阅读量1.3k

点赞数

分类专栏： Python 爬虫文章标签： python html解析器

Python 同时被 2 个专栏收录

29 篇文章 1 订阅

订阅专栏

爬虫

15 篇文章 0 订阅

订阅专栏

参考来源： http://cuiqingcai.com/1319.html

关于`BeautifulSoup`

简单来说，Beautiful Soup是Python的一个库，最主要的功能是从网页抓取数据。

官方解释如下：
BeautifulSoup提供一些简单的、Python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。
BeautifulSoup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，BeautifulSoup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。
BeautifulSoup已成为和lxml、html6lib一样出色的 Python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

BeautifulSoup中的HTML解析器对比

解析器	使用方法	优势	劣势
`Python`标准库	`BeautifulSoup(markup, “html.parser”)`	`Python`的内置标准库；执行速度适中；文档容错能力强	`Python 2.7.3 or 3.2.2`)前的版本中文档容错能力差
`lxml HTML` 解析器	`BeautifulSoup(markup, “lxml”)`	速度快；文档容错能力强	需要安装`C`语言库
`lxml XML` 解析器	`BeautifulSoup(markup, [“lxml”, “xml”])`	速度快；唯一支持`XML`的解析器	需要安装`C`语言库
`html5lib`	`BeautifulSoup(markup, “html5lib”)`	最好的容错性；以浏览器的方式解析文档；生成`HTML5`格式的文档	速度慢；不依赖外部扩展