BeautifuSoup库介绍

最新推荐文章于 2023-05-12 22:32:44 发布

L·Lawliete

最新推荐文章于 2023-05-12 22:32:44 发布

阅读量507

点赞数

分类专栏： python 文章标签： BeautifuSoup

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AIex_/article/details/99683944

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Beautiful Soup 是一个强大的解析工具,借助网页的结构和属性等特性来解析网页。有了它就不用写一些复杂的正则表达式，只需要简单的
几局，就可以完成网页中某个元素的提取

BeautifulSoup就是python中的一个HTML或XML的解析库。可以用它方便的从网页中提取数据

特性：

简单，用来处理导航、搜索、修改分析树等功能
它是一个工具箱，通过解析文档用户提供需要抓取的数据
可以自动将输入文档自动转换为Unicode编码，输出文档转换为UTF-8编码。不需要考虑编码方式，除非文档没有指定一个编码方式，这时
仅仅需要说明一下原始编码方式就可以了

BeautifulSoup已成为 lxml、html6lib一样出色的Python解释器，为用户提供不同的解析策略和更快的速度

安装：安装好BeautifuSoup 和 lxml
安装命令： pip install bs4 pip install lxml

BeautifulSoup支持的解析器：
1.
解析器： Python标准库
使用方法： BeautifuSoup(markup,‘html.parser’)
优势： Python的内置标准库，执行速度适中，文档容错能力强
劣势： Python2.7.3及Python3.2.2之前的版本文档容错能力差

lxml HTML解析器
使用方法： BeautifulSoup(markup,‘lxml’)
优势：速度快、文档容错能力强
劣势：需要安装C语言库

html XML解析器
使用方法：BeautifulSoup(markup,‘xml’)
优势：速度快、唯一支持XML的解析器
劣势：需要安装C语言库

html5lib
使用方法：BeautifulSoup(markup,‘html5lib’)
优势：最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档
劣势：速度慢、不依赖外部扩展

通过以上对比可以看出，lxml解析器有解析HTML和XML的功能，而且速度快、容错能力强，所以推荐使用它(lxml)

如果使用lxml，那么在初始化BeautifulSoup 时，可以把第二个参数改为lxml即可：
from bs4 import BeautifulSoup
soup = BeautifulSoup(‘

Hello

’,‘lxml’)
print(soup.p.string)

BeautifulSoup具体用法去谷歌搜索资料即可

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BeautifuSoup库介绍

Beautiful Soup 是一个强大的解析工具,借助网页的结构和属性等特性来解析网页。有了它就不用写一些复杂的正则表达式，只需要简单的几局，就可以完成网页中某个元素的提取BeautifulSoup就是python中的一个HTML或XML的解析库。可以用它方便的从网页中提取数据特性：简单，用来处理导航、搜索、修改分析树等功能它是一个工具箱，通过解析文档用户提供需要抓取的数据可以自动...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。