Beautiful Soup 是 Python 中一个非常流行的 HTML/XML 解析库,它提供了一些重要的概念和方法来帮助我们对 HTML/XML 进行解析和处理。下面是一些 Beautiful Soup 中的重要概念:
-
标签(Tag):在 HTML/XML 中,标签用于定义文档的结构和内容。Beautiful Soup 可以通过搜索和遍历文档中的标签来获取其内容和属性。
-
属性(Attribute):HTML/XML 标签可以包含一些属性,如
class
、id
、href
等。Beautiful Soup 可以通过搜索和遍历文档中的属性来获取其值。 -
NavigableString:表示 Beautiful Soup 所解析的 HTML/XML 文档中的字符串。NavigableString 对象通常是 HTML/XML 标签中的文本内容。
-
BeautifulSoup 对象:表示整个 HTML/XML 文档,在 Beautiful Soup 中创建该对象后,我们可以通过它来访问文档的各个部分,包括文档中的标签、字符串等。
-
遍历和搜索方法:Beautiful Soup 提供了多种方法来搜索和遍历 HTML/XML 文档中的标签和属性。比如
find()
和find_all()
方法可以用来搜索特定的标签或属性,children
和descendants
属性可以用来遍历文档中的标签等。 -
CSS 选择器:基于 CSS 样式表语法的一种方式,用于在 HTML/XML 文档中选择特定的标签和属性。Beautiful Soup 支持使用 CSS 选择器来搜索和遍历文档中的元素。
children 属性用于遍历当前标签的直接子标签,返回一个迭代器
from bs4 import BeautifulSoup
html_doc = """
<html>
<head>
<title>Example Page</title>
</head>
<body>
<p>This is the first paragraph.</p>
<p class="important">