BeautifulSoup的使用
我们学习了正则表达式的相关用法,但是一旦正则写的有问题,可能得到的就不是我们想要的结果了,而且对于一个网页来说,都有一定的特殊的结构和层级关系,而且很多标签都有id或class来对作区分,所以我们借助于它们的结构和属性来提取不也是可以的吗?
所以,这一节我们就介绍一个强大的解析工具,叫做BeautiSoup,它就是借助网页的结构和属性等特性来解析网页的工具,有了它我们不用再去写一些复杂的正则,只需要简单的几条语句就可以完成网页中某个元素的提取。
废话不多说,接下来我们就来感受一下BeautifulSoup的强大之处吧。
BeautifulSoup简介
简单来说,BeautifulSoup就是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据,官方的解释如下:BeautifulSoup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。BeautifulSoup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时你仅仅需要说明一下原始编码方式就可以了。BeautifulSoup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。
所以说,利用它我们可以省去很多繁琐的提取工作,提高解析效率。
安装
使用之前,我们当然需要首先说明一下它的安装方式。目前BeautifulSoup的最新版本是4.x版本,之前的版本已经停止开发了,推荐使用pip来安装,安装命令如下:
pip3 install beautifulsoup4
当然也可以从pypi下载whl文件安装,链接如下:
好,安装完成之后可以验证一下,写一段Python程序试验一下。
from bs4 import BeautifulSoup
soup = BeautifulSoup('
Hello
', 'html.parser')print(soup.p.string)
运行结果
Hello
如果没有报错,则证明安装没有问题,关于它的解析用法我们在后面会详细介绍。注意在这里我们虽然安装的是beautifulsoup4这个包,但是在引入的时候是引入的bs4,这是因为这个包源代码本身的库文件夹名称就是bs4,所以安装完成之后,这个库文件夹就被移入到我们本机Python3的lib库里,所以识别到的库文件名称就叫做bs4,所以我们引入的时候就引入bs4这个包。因此,包本身的名称和我们使用时导入的包的名称并不一定是一致的。
解析器
BeautifulSoup在解析的时候实际上是依赖于解析器的,它除了支持Python标准库中的HTML解析器,还支持一些第三方的解析器比如lxml,下面我们对BeautifulSoup支持的解析器及它们的一些优缺点做一个简单的对比。
解析器使用方法优势劣势
Python标准库BeautifulSoup(markup, 'html.parser')Python的内置标准库、执行速度适中 、文档容错能力强Python 2.7.3 or 3.2.2)前的版本中文容错能力差
lxml HTML 解析器BeautifulSoup(markup, 'lxml')速度快、文档容错能力强需要安装C语言库
lxml XML 解析器BeautifulSoup(markup, 'xml')速度快、唯一支持XML的解析器需要安装C语言库
html5libBeautifulSoup(markup, 'html5lib')最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档速度慢、不依赖外部扩展
所以通过以上对比可以看出,lxml这个解析器有解析HTML和XML的功能,而且速度快,容错能力强,所以推荐使用这个库来进行解析,但是这里的劣势是必须安装一个C语言库,它叫做lxml,我们在这里依然使用pip安装即可,命令如下:
pip3 install lxml
安装完成之后,我们就可以使用lxml这个解析器来解析了,在初始化的时候我们可以把第二个参数改为lxml,如下:
from bs4 import BeautifulSoup
soup = BeautifulSoup('
Hello
', 'lxml')print(soup.p.string)
运行结果是完全一致的,后面BeautifulSoup的用法实例也统一用这个库来演示。
基本使用
下面我们首先用一个实例来感受一下BeautifulSoup的基本使用:
html = '''
The Dormouse's storyThe Dormouse's story
Once upon a time there were three little sisters; and their names were
Lacie and
and they lived at the bottom of a well.
...
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.prettify())
print(soup.title.string)
运行结果:
The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie
and
Tillie
;
and they lived at the bottom of a well.
...
The Dormouse's story
首先我们声明了一个变量html,它是一个HTML字符串,但是注意到,它并不是一个完整的HTML字符串,
和标签都没有闭合,但是我们将它当作第一个参数传给BeautifulSoup对象,第二个参数传入的是解析器的类型,在这里我们使用lxml,这样就完成了BeaufulSoup对象的初始化,将它赋值给soup这个变量。那么接下来我们就可以通过调用soup的各个方法和属性对这串HTML代码解析了。
我们首先调用了prettify()方法,这个方法可以把要解析的字符串以标准的缩进格式输出,在这里注意到输出结果里面包含了和标签,也就是说对于不标准的HTML字符串BeautifulSoup可以自动更正格式,这一步实际上不是由prettify()方法做的,这个更正实际上在初始化BeautifulSoup时就完成了。
然后我们调用了soup.title.string,这个实际上是输出了HTML中
标签的文本内容。所以soup.title就可以选择出HTML中的标签,再调用string属性就可以得到里面的文本了,所以我们就可以通过简单地调用几个属性就可以完成文本的提取了,是不是非常方便?标签选择器
刚才我们选择元素的时候