BeatifulSoup库入门

最新推荐文章于 2023-07-17 22:44:13 发布

the_power

最新推荐文章于 2023-07-17 22:44:13 发布

阅读量515

点赞数 1

文章标签： BeautifulSoup python html解析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/the_power/article/details/86658023

版权

本文介绍了BeautifulSoup库的入门知识，包括安装与导入、解析器选择、BeautifulSoup类的基本元素如Tag标签、NavigableString、Comment，以及如何进行HTML内容的遍历，包括下行、上行和平行遍历。此外，还提到了bs4库的编码处理。

摘要由CSDN通过智能技术生成

BeautifulSoup库入门

Beautiful Soup库是解析、遍历、维护“标签树”的功能库

BeautifulSoup库的安装与导入

win平台，“以管理员身份运行”cmd,执行

pip install beautifulsoup4

导入方式

from bs4 import BeautifulSoup

BeautifulSoup库解析器

bs4的HTML解析器

安装bs4库

BeautifulSoup(mk,‘html.parser’)

lxml的HTML解析器

pip install lxml

BeautifulSoup(mk,‘lxml’)

lxml的XML解析器

pip install lxml

BeautifulSoup(mk,‘xml’)

html5lib解析器

pip install html5lib

BeautifulSoup(mk,‘html5lib’)

BeautifulSoup类的基本元素

Tag标签

基本元素	说明
Tag	标签，最基本的信息组织单元，分别用<>和</>标明开通和结尾

from bs4 import BeautifulSoup
soup = BeautifulSoup('<a><span>hi</span></a>','html.parser')
soup.a

<a><span>hi</span></a>

注意：当文档中存在多个相同的对应内容时，返回第一个

Tag的name（名字）

基本元素	说明
Name	标签的名字,`<a>..</a>`的名字是’p’

soup = BeautifulSoup('<a><span>hi</span></a>','html.parser')
soup.a.name

'a'

Tag的attrs（属性）

基本元素	说明
Attributes	标签的属性,字典形式组织，格式：`<tag>.attrs`

soup = BeautifulSoup('<a href="#">test</a>','html')
soup.a.attrs

{'href': '#'}

Tag的NavigableString

基本元素	说明
NavigableString	标签内非属性字符串,`<>..</>`字符串，格式：`<tag>.string`

soup = BeautifulSoup('<a>this is a string</a>','html')
print

最低0.47元/天解锁文章

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
BeatifulSoup库入门

BeautifulSoup库解析器、基本元素、标签遍历
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。