pythonBeautifulSoup的使用

最新推荐文章于 2024-07-10 17:28:32 发布

chinawubin118

最新推荐文章于 2024-07-10 17:28:32 发布

阅读量207

点赞数

分类专栏： python 文章标签： python beautifulsoup Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chinawubin118/article/details/129732036

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

BeautifulSoup是一款强大的HTML等文档解析工具,能够快速解析HTML标签和内容.以下是BeautifulSoup常见的一些用法:

# 演示数据

html = '''

<html><head><title>This is HTML title</title></head>

<body>This is HTML body!<p>This is p tag content</p>

<p>p1<a>p2</a><p>p3<span>span in p3</span></p>p3</p>

<body>

'''

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'lxml')

# 美化HTML代码

# print(soup.prettify())

# 获取标题

print(soup.title.string)

# 获取第一个p标签文本

print(soup.p.string)

# 嵌套选择节点

print(soup.head.title)

print('*' * 50)

# 重新赋值进行测试

html = '''

<html><head><title>This is HTML title</title></head>

<body>This is HTML body!<p>p1<a id='a1'>p2</a><a class='a3'>p3<span>span in p3</span></a>p4</p>

<body>

'''

soup = BeautifulSoup(html,'lxml')

# 获取第一个p的直接子节点

print(soup.p.children)

for i,child in enumerate(soup.p.children):

pass

# print(i,child)

print('*' * 50)

# 获取第一个p的所有子孙节点

print(soup.p.descendants)

for i,child in enumerate(soup.p.descendants):

pass

# print(i,child)

print('*' * 50)

# 获取第一个p的父节点

# print(soup.p.parent)

# 获取第一个p的祖先节点

# print(soup.p.parents)

print('*' * 50)

# 标准选择器 find_all(name,attr,recursive,text,**kwargs) 可根据标签名,属性,内容查找文档

# 查找所有a标签

print(soup.find_all('a'))

# 查找指定下标的a元素

print(soup.find_all('a')[0])

# 查找a元素下的span子元素

a = soup.find_all('a')[1]

print(a.find_all('span'))

# 根据属性查找

print(soup.find_all(attrs={'id':'a1'}))

# 查找class属性,限制查找1条

print(soup.find_all(class_='a3',limit=1))

print('*' * 50)

# 通过select()传入CSS选择器查找

print(soup.select('p'))

print(soup.select('#a1'))

print(soup.select('.a3 span'))

# 获取元素文本内容

print(soup.select('a')[1].get_text())

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pythonBeautifulSoup的使用

BeautifulSoup是一款强大的HTML等文档解析工具,能够快速解析HTML标签和内容.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。