05 - DOM解析-Beautiful Soup

最新推荐文章于 2022-09-30 18:01:13 发布

傲寒

最新推荐文章于 2022-09-30 18:01:13 发布

阅读量425

点赞数

分类专栏： Python爬虫

本文链接：https://blog.csdn.net/qq_43407841/article/details/106259077

版权

本文介绍了Beautiful Soup库，用于从HTML和XML文件中提取数据。Beautiful Soup自动处理编码问题，提供简单的方法来导航、搜索和修改DOM树。它与lxml类似，支持CSS选择器。文中讲解了bs4的四种对象和如何进行DOM树的基本操作，如遍历、搜索、修改和删除节点。

摘要由CSDN通过智能技术生成

课堂笔记

1. Beautiful Soup简介

1.1 什么是Beautiful Soup

Beautiful Soup是一个可以从HTML/XML文件中提取网页数据的的提取库
Beautiful Soup自动将输入文档以Unicode格式编码，输出文档以utf-8格式编码，一般无需考虑编码方式，除非文档本身并没有定义，此时也只需自定义编码格式即可
Beautiful Soup文档

1.2 Beautiful Soup与lxml、正则的关系

Beautiful Soup与lxml基本类似，都支持HTML/XML解析以及CSS选择器

工具	速度	使用难度	工作方式
正则	最快	较难	NFA匹配算法
lxml	快	较容易	不载入整个文档，局部解析DOM树
Beautiful Soup	最慢	最容易	载入整个文档，解析整个DOM树

基本使用

from bs4 import BeautifulSoup
# html内容
html = '<html><body><p><a>123</a><a>456</a></p></body></html>'
# 将字符串html使用lxml解析为DOM文档树
bs = BeautifulSoup(html, 'lxml')
# 以HTML格式形式输出整个内容
print(bs.prettify())        # 打印整个html页面内容
# 获取bs下的第一个a标签以及标签名
print(bs.a, bs.a.name)      # <a>123</a> a
# 获取第一个a标签内容
print(bs.a