1.Beautiful Soup的简介
Beautiful Soup是Python的一个HTML或XML的解析库。用它可以方便地从网页中提取数据,其官方解释如下:
Beautiful Soup提供一些简单、Python式的函数来处理导航、搜索、修改分析树等功能。
2.解析器
Beautiful Soup在解析时是依赖解析器的,它除了支持Python标准库中的HTML解析器,还支持一些第三方解析器。如LXML解析器有解析HTML和XML的功能,而且速度快、容错能力强。使用时只需在初始化Beautiful Soup时,把第二个参数改为lxml即可:
from bs4 import BeautifulSoup
soup = BeautifulSoup(‘<p>Hello</p>’,’lxml’)