使用 BeautifulSoup 解析HTML内容+ 遍历搜索

最新推荐文章于 2025-04-11 22:46:48 发布

铁松溜达py

最新推荐文章于 2025-04-11 22:46:48 发布

阅读量1.2k

点赞数 7

文章标签： beautifulsoup html 前端

本文链接：https://blog.csdn.net/book_dw5189/article/details/136265946

版权

本文介绍了BeautifulSoup在Python中处理HTML和XML的重要概念，包括标签、属性、NavigableString、BeautifulSoup对象、遍历方法（如find(),find_all(),children和descendants）以及CSS选择器的使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Beautiful Soup 是 Python 中一个非常流行的 HTML/XML 解析库，它提供了一些重要的概念和方法来帮助我们对 HTML/XML 进行解析和处理。下面是一些 Beautiful Soup 中的重要概念：

标签（Tag）：在 HTML/XML 中，标签用于定义文档的结构和内容。Beautiful Soup 可以通过搜索和遍历文档中的标签来获取其内容和属性。
属性（Attribute）：HTML/XML 标签可以包含一些属性，如 class、id、href 等。Beautiful Soup 可以通过搜索和遍历文档中的属性来获取其值。
NavigableString：表示 Beautiful Soup 所解析的 HTML/XML 文档中的字符串。NavigableString 对象通常是 HTML/XML 标签中的文本内容。
BeautifulSoup 对象：表示整个 HTML/XML 文档，在 Beautiful Soup 中创建该对象后，我们可以通过它来访问文档的各个部分，包括文档中的标签、字符串等。
遍历和搜索方法：Beautiful Soup 提供了多种方法来搜索和遍历 HTML/XML 文档中的标签和属性。比如 find() 和 find_all() 方法可以用来搜索特定的标签或属性，children 和 descendants 属性可以用来遍历文档中的标签等。
CSS 选择器：基于 CSS 样式表语法的一种方式，用于在 HTML/XML 文档中选择特定的标签和属性。Beautiful Soup 支持使用 CSS 选择器来搜索和遍历文档中的元素。

children 属性用于遍历当前标签的直接子标签，返回一个迭代器

from bs4 import BeautifulSoup

html_doc = """
<html>
<head>
<title>Example Page</title>
</head>
<body>
<p>This is the first paragraph.</p>
<p class="important">

最低0.47元/天解锁文章