BeautifulSoup4模块

最新推荐文章于 2023-06-05 15:58:19 发布

ciel_32shire

最新推荐文章于 2023-06-05 15:58:19 发布

阅读量683

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/ciel_32shire/article/details/83688461

版权

BeautifulSoup4是一个用于解析HTML和XML文档的模块，它提供了一套丰富的搜索和导航功能。该模块将输入转换为unicode并默认输出为utf-8。主要特性包括：Tag生成器、find方法、SoupStrainer和UnicodeDammit。find方法用于查找匹配的标签，find_all返回所有匹配项。SoupStrainer允许仅解析符合条件的节点，节省资源。UnicodeDammit能自动检测编码并处理混合编码问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

BeautifulSoup是一个可以从html或xml文档中提取数据的模块，它会将输入文档都转换为unicode，默认将输出文档转换为utf-8。BeautifulSoup的用法如下所示：

from bs4 import BeautifulSoup as BS
soup = BS(docstr_or_fileobj, parser)   # 不指定parser时，Beautiful Soup会将当前文档作为HTML格式解析

BeautifulSoup有如下所示解析器：

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	Python的内置标准库；执行速度适中；文档容错能力强；	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML解析器	BeautifulSoup(markup, “lxml”)	速度快；文档容错能力强；	需要安装C语言库
lxml XML解析器	BeautifulSoup(markup, “xml”)；BeautifulSoup(markup, [“lxml-xml”])	速度快；唯一支持XML的解析器；	需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	最好的容错性；以浏览器的方式解析文档；生成HTML5格式的文档；	速度慢；不依赖外部扩展；