python爬虫学习30

最新推荐文章于 2024-08-15 09:47:08 发布

亦瑕

最新推荐文章于 2024-08-15 09:47:08 发布

阅读量4.3k

点赞数 5

文章标签： python 爬虫学习

本文链接：https://blog.csdn.net/szshiquan/article/details/124180016

版权

这篇博客介绍了Python中的Beautiful Soup库，用于解析HTML和XML文档。文章讲解了Beautiful Soup的基本概念，如何使用解析器，特别是lxml，以及基本的使用方法和节点选择器的应用。

摘要由CSDN通过智能技术生成

之前我们学过了 lxml库，今天我们一同学习Beautiful Soup库的使用

Beautiful Soup 是Python的一个HTML或XML的解析库，我们可以用它方便的从网页中提取数据。

它提供了一些简单的、python式的函数来处理导航、搜索、修改分析树等功能。beautiful soup自动将输入文档转换为Unicode编码，将输出文档转化为utf-8编码。

这时我们就不需要考虑编码的方式，只需要说明一下原始编码即可。

与lxml库一样，beautiful soup都是用来解析网页的python解释器。

beautiful soup 在解析时需要依靠解析器，他除了支持python标准库的HTML解析器，还支持一些第三方解析器（如lxml）。
在这里插入图片描述

使用前先进行安装：

pip3 install beautifulsoup4

下载的时候可能会超时，多试几次或者干脆挂个镜像

安装完成后，使用 bs4调用lxml解析器

# 解析器的调用
from bs4 import BeautifulSoup

soup = BeautifulSoup('<p>Hellow python</p>', 'lxml')
print(soup.p.string)

运行结果：

关注