提示:文末戳我名片>>Free领>>全套Python爬虫学习资料
前言
bs4库 与 lxml库 的区别
BeautifulSoup4 是一个 HTML/XML 的解析器,主要的功能是解析和提取 HTML/XML 的数据,和 lxml 库一样。
lxml 只会局部遍历,而 BeautifulSoup4 是基于HTML DOM的,会加载整个文档,解析整个DOM树,因此内存开销比较大,性能比较低。
BeautifulSoup4 用来解析HTML比较简单,API使用非常人性化,支持CSS选择器,是Python标准库中的HTML解析器,也支持lxml解析器。
话不多说,开始学习
Beautiful Soup库
1、安装Beautiful Soup库
打开cmd,输入pip install beautifulsoup4
2、使用Beautiful Soup库
from bs4 import BeautifulSoup
soup=BeautifulSoup(data,'html.parser')
其中data为爬取的网页源代码,html.parser为对data的解释器。
3、bs4库的基本元素
bs4库的理解
bs4库是解析、遍历、维护“标签树”的功能书。
<p class="title">..</p>
<p>..</p>是以p为名称的标签类型。
class=“title”是该标签的属性域,是一个键值对。
引用方式
from bs4 import BeautifulSoup
import bs4
解析器
bs4的HTML解析器:BeautifulSoup