【笔记】慕课-Python网络爬虫与信息提取-BeautifulSoup库（1）

最新推荐文章于 2024-05-21 10:35:05 发布

shupppppppy

最新推荐文章于 2024-05-21 10:35:05 发布

阅读量100

点赞数

分类专栏： Python 文章标签： python 爬虫 html

本文链接：https://blog.csdn.net/shupppppppy/article/details/120201385

版权

本文详细介绍了BeautifulSoup库在解析HTML页面中的应用，包括解析器的选择，如html.parser、lxml和html5lib，以及BeautifulSoup类的基本元素如Tag、Attributes和NavigableString。还探讨了标签树的下行、上行和平行遍历方法，如.contents、.children、.descendants、.parent、.parents、.next_sibling、.previous_sibling等，帮助理解HTML结构并提取所需信息。

摘要由CSDN通过智能技术生成

Beautiful Soup 解析HTML页面

代码

from bs4 import BeautifulSoup
soup=BeautifulSoup('<p>data</p>','html.parser')		
#'<p>data</p>'可以是使用requests库从html页面上爬取的源代码，还可以写成打开html/xml文件的形式open("D://demo.html")
#'html.parser'是html解析器

BeautifulSoup库作用是解析、遍历和维护“标签树”

HTML文件、标签树和BeautifulSoup类等价

BeautifulSoup对应一个HTML/XML文档的全部内容