BeautifulSoup中各种html解析器的比较及使用

最新推荐文章于 2024-07-03 20:27:38 发布

Winterto1990

最新推荐文章于 2024-07-03 20:27:38 发布

阅读量1.6w

点赞数 6

分类专栏： python 文章标签： python html解析器 html

本文链接：https://blog.csdn.net/Winterto1990/article/details/47806175

版权

75 篇文章 1 订阅

订阅专栏

·Beautiful Soup支持各种html解析器，包括python自带的标准库，还有其他的许多第三方库模块。其中一个就是lxml parser，至于lxml parser的安装，可以通过以下方法安装：

1）easy_install lxml 2）pip install lxml

另外，python对于模块的安装，可以查看博客说明，分为两种：easy_install 和 pip.

另外一种纯python解析器为html5lib解析器，可以像web浏览器那样解析html页面，你可以通过下面两种方式安装html5lib：

1）easy_install html5lib 2）pip install html5lib

下面对各种html解析器的优缺点做一下对比：

解析器	使用方法	优点	缺点
Python’s html.parser	BeautifulSoup(markup,"html.parser")	python自身带有速度比较快能较好兼容 (as of Python 2.7.3 and 3.2.)	不能很好地兼容(before Python 2.7.3 or 3.2.2)
lxml’s HTML parser	BeautifulSoup(markup,"lxml")	速度很快兼容性好	External C dependency
lxml’s XML parser	`BeautifulSoup(markup, "lxml-xml")` `BeautifulSoup(markup,"xml")`	速度很快 The only currently supported XML parser	External C dependency
html5lib	BeautifulSoup(markup, "html5lib")	1)兼容性很好 2)可以像web浏览器一样解析html页面 3) Creates valid HTML5	速度很慢 External Python dependency