Python爬虫入门（三）数据提取（BeautifulSoup）

最新推荐文章于 2024-10-14 17:02:44 发布

Story–teller

最新推荐文章于 2024-10-14 17:02:44 发布

阅读量892

点赞数

文章标签： BeautifulSoup 爬虫 python

本文链接：https://blog.csdn.net/qq_42019407/article/details/103109349

版权

本文介绍了Python爬虫中BeautifulSoup4库的使用，包括解析器选择、find_all方法、css选择器的运用，以及四个常用对象和遍历文档树的方法。示例展示了如何利用BeautifulSoup提取网页数据并进行实际应用。

摘要由CSDN通过智能技术生成

BeautifulSoup4库

和lxml一样，BeautifulSoup也是一个基于HTML/XML的解析器，主要功能也是如何解析和提取html/xml数据

Lxml只会局部遍历，而beautifulsoup是基于HTML DOM(Document Object Model)的，会载入整个文档，解析整个DOM树，因此需要的时间和内存开销会大，性能要低于lxml

Beautifulsoup用来解析html比较简单，api比较人性化，支持css选择器、python标准库中的html解析器，也支持lxml的xml解析器

安装：pip install bs4

使用方法：

from urllib import request
from bs4 import BeautifulSoup

url = "http://www.baidu.com"
rsp = request.urlopen(url)
content = rsp.read()

soup = BeautifulSoup(content, "html.parser") #解析器为html.parser，如果不指定解析器则使用默认解析器
print(soup.title.string)

解析器比较