05 - DOM解析-Beautiful Soup

本文介绍了Beautiful Soup库,用于从HTML和XML文件中提取数据。Beautiful Soup自动处理编码问题,提供简单的方法来导航、搜索和修改DOM树。它与lxml类似,支持CSS选择器。文中讲解了bs4的四种对象和如何进行DOM树的基本操作,如遍历、搜索、修改和删除节点。
摘要由CSDN通过智能技术生成

目录

1. Beautiful Soup简介
  • 什么是Beautiful Soup
  • Beautiful Soup与lxml、正则的关系
2. Beautiful Soup主要内容
  • bs4的四种对象
  • 对DOM树模型基本操作

课堂笔记

1. Beautiful Soup简介
1.1 什么是Beautiful Soup
  • Beautiful Soup是一个可以从HTML/XML文件中提取网页数据的的提取库
  • Beautiful Soup自动将输入文档以Unicode格式编码,输出文档以utf-8格式编码,一般无需考虑编码方式,除非文档本身并没有定义,此时也只需自定义编码格式即可
  • Beautiful Soup文档
1.2 Beautiful Soup与lxml、正则的关系
  • Beautiful Soup与lxml基本类似,都支持HTML/XML解析以及CSS选择器
工具 速度 使用难度 工作方式
正则 最快 较难 NFA匹配算法
lxml 较容易 不载入整个文档,局部解析DOM树
Beautiful Soup 最慢 最容易 载入整个文档,解析整个DOM树
  • 基本使用
from bs4 import BeautifulSoup
# html内容
html = '<html><body><p><a>123</a><a>456</a></p></body></html>'
# 将字符串html使用lxml解析为DOM文档树
bs = BeautifulSoup(html, 'lxml')
# 以HTML格式形式输出整个内容
print(bs.prettify())        # 打印整个html页面内容
# 获取bs下的第一个a标签以及标签名
print(bs.a, bs.a.name)      # <a>123</a> a
# 获取第一个a标签内容
print(bs.a
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值