python中beautifulsoup的作用_Python3中BeautifulSoup的使用方法

最新推荐文章于 2024-05-02 05:09:18 发布

Screwberry

最新推荐文章于 2024-05-02 05:09:18 发布

阅读量4.8k

点赞数 1

文章标签： python中beautifulsoup的作用

本文链接：https://blog.csdn.net/weixin_30641041/article/details/112962061

版权

BeautifulSoup的使用

我们学习了正则表达式的相关用法，但是一旦正则写的有问题，可能得到的就不是我们想要的结果了，而且对于一个网页来说，都有一定的特殊的结构和层级关系，而且很多标签都有id或class来对作区分，所以我们借助于它们的结构和属性来提取不也是可以的吗？

所以，这一节我们就介绍一个强大的解析工具，叫做BeautiSoup，它就是借助网页的结构和属性等特性来解析网页的工具，有了它我们不用再去写一些复杂的正则，只需要简单的几条语句就可以完成网页中某个元素的提取。

废话不多说，接下来我们就来感受一下BeautifulSoup的强大之处吧。

BeautifulSoup简介

简单来说，BeautifulSoup就是Python的一个HTML或XML的解析库，我们可以用它来方便地从网页中提取数据，官方的解释如下：BeautifulSoup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。BeautifulSoup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时你仅仅需要说明一下原始编码方式就可以了。BeautifulSoup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

所以说，利用它我们可以省去很多繁琐的提取工作，提高解析效率。

安装

使用之前，我们当然需要首先说明一下它的安装方式。目前BeautifulSoup的最新版本是4.x版本，之前的版本已经停止开发了，推荐使用pip来安装，安装命令如下：

pip3 install beautifulsoup4

当然也可以从pypi下载whl文件安装，链接如下：

好，安装完成之后可以验证一下，写一段Python程序试验一下。

from bs4 import BeautifulSoup

soup = BeautifulSoup('

Hello

', 'html.parser')

print(soup.p.string)

运行结果

Hello

如果没有报错，则证明安装没有问题，关于它的解析用法我们在后面会详细介绍。注意在这里我们虽然安装的是beautifulsoup4这个包，但是在引入的时候是引入的bs4，这是因为这个包源代码本身的库文件夹名称就是bs4，所以安装完成之后，这个库文件夹就被移入到我们本机Python3的lib库里，所以识别到的库文件名称就叫做bs4，所以我们引入的时候就引入bs4这个包。因此，包本身的名称和我们使用时导入的包的名称并不一定是一致的。

解析器

BeautifulSoup在解析的时候实际上是依赖于解析器的，它除了支持Python标准库中的HTML解析器，还支持一些第三方的解析器比如lxml，下面我们对BeautifulSoup支持的解析器及它们的一些优缺点做一个简单的对比。

解析器使用方法优势劣势

Python标准库BeautifulSoup(markup, 'html.parser')Python的内置标准库、执行速度适中、文档容错能力强Python 2.7.3 or 3.2.2)前的版本中文容错能力差

lxml HTML 解析器BeautifulSoup(markup, 'lxml')速度快、文档容错能力强需要安装C语言库

lxml XML 解析器BeautifulSoup(markup, 'xml')速度快、唯一支持XML的解析器需要安装C语言库

html5libBeautifulSoup(markup, 'html5lib')最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档速度慢、不依赖外部扩展

所以通过以上对比可以看出，lxml这个解析器有解析HTML和XML的功能，而且速度快，容错能力强，所以推荐使用这个库来进行解析，但是这里的劣势是必须安装一个C语言库，它叫做lxml，我们在这里依然使用pip安装即可，命令如下：

pip3 install lxml

安装完成之后，我们就可以使用lxml这个解析器来解析了，在初始化的时候我们可以把第二个参数改为lxml，如下：

from bs4 import BeautifulSoup

soup = BeautifulSoup('

Hello

', 'lxml')

print(soup.p.string)

运行结果是完全一致的，后面BeautifulSoup的用法实例也统一用这个库来演示。

基本使用

下面我们首先用一个实例来感受一下BeautifulSoup的基本使用：

html = '''

The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were

Lacie and

Tillie;

and they lived at the bottom of a well.

...

'''

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')

print(soup.prettify())

print(soup.title.string)

运行结果：

The Dormouse's story

Once upon a time there were three little sisters; and their names were

Lacie

and

Tillie

;

and they lived at the bottom of a well.

...

The Dormouse's story

首先我们声明了一个变量html，它是一个HTML字符串，但是注意到，它并不是一个完整的HTML字符串，

和标签都没有闭合，但是我们将它当作第一个参数传给BeautifulSoup对象，第二个参数传入的是解析器的类型，在这里我们使用lxml，这样就完成了BeaufulSoup对象的初始化，将它赋值给soup这个变量。

那么接下来我们就可以通过调用soup的各个方法和属性对这串HTML代码解析了。

我们首先调用了prettify()方法，这个方法可以把要解析的字符串以标准的缩进格式输出，在这里注意到输出结果里面包含了和标签，也就是说对于不标准的HTML字符串BeautifulSoup可以自动更正格式，这一步实际上不是由prettify()方法做的，这个更正实际上在初始化BeautifulSoup时就完成了。

然后我们调用了soup.title.string，这个实际上是输出了HTML中

标签的文本内容。所以soup.title就可以选择出HTML中的标签，再调用string属性就可以得到里面的文本了，所以我们就可以通过简单地调用几个属性就可以完成文本的提取了，是不是非常方便？

标签选择器

刚才我们选择元素的时候

最低0.47元/天解锁文章

Screwberry

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
python中beautifulsoup的作用_Python3中BeautifulSoup的使用方法

BeautifulSoup的使用我们学习了正则表达式的相关用法，但是一旦正则写的有问题，可能得到的就不是我们想要的结果了，而且对于一个网页来说，都有一定的特殊的结构和层级关系，而且很多标签都有id或class来对作区分，所以我们借助于它们的结构和属性来提取不也是可以的吗？所以，这一节我们就介绍一个强大的解析工具，叫做BeautiSoup，它就是借助网页的结构和属性等特性来解析网页的工具，有了它我们...
复制链接

扫一扫