Beautiful Soup使用教程

最新推荐文章于 2024-08-12 23:17:41 发布

「已注销」

最新推荐文章于 2024-08-12 23:17:41 发布

阅读量891

点赞数 1

文章标签： idea

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73291751/article/details/130181385

版权

Beautiful Soup是一个Python的第三方库，用于从HTML和XML文件中提取数据。它可以自动将输入文档转换为Unicode编码，也可以将输出文档转换为UTF-8编码，非常方便。下面是Beautiful Soup的使用教程。

安装Beautiful Soup

可以使用pip命令来安装Beautiful Soup：

pip install beautifulsoup4

解析HTML文档

首先，需要导入Beautiful Soup库：

python

from bs4 import BeautifulSoup

然后，可以使用BeautifulSoup函数解析HTML文档。例如，以下是解析一个HTML文件的示例代码：

pythonCopy code

# 读取HTML文件

with open('example.html', 'r') as f:

html = f.read()

# 解析HTML文档

soup = BeautifulSoup(html, 'html.parser')

查找标签

Beautiful Soup提供了多种方法来查找标签，例如find、find_all、select等。以下是使用find方法查找标签的示例代码：

pythonCopy code

# 查找第一个a标签

a_tag = soup.find('a')

# 查找id为link的a标签

a_tag = soup.find('a', id='link')

获取标签内容和属性

可以使用tag.string获取标签内容，使用tag.attrs获取标签属性。以下是获取标签内容和属性的示例代码：

pythonCopy code

# 获取a标签的内容

content = a_tag.string

# 获取a标签的href属性

href = a_tag.attrs['href']

修改标签内容和属性

可以直接对tag.string和tag.attrs进行修改，也可以使用tag.string.replace_with()和tag.attrs['属性名']进行修改。以下是修改标签内容和属性的示例代码：

python

# 修改a标签的内容

a_tag.string = 'New Content'

# 修改a标签的href属性

a_tag['href'] = 'http://www.example.com'

创建新的标签

可以使用Beautiful Soup提供的方法创建新的标签，例如new_tag、new_string等。以下是创建新的标签的示例代码：

python

# 创建一个新的a标签

new_a_tag = soup.new_tag('a', href='http://www.example.com', target='_blank')

# 创建一个新的字符串

new_string = soup.new_string('New Content')

删除标签

可以使用tag.decompose()方法删除标签。以下是删除标签的示例代码：

python

# 删除a标签

a_tag.decompose()

以上是Beautiful Soup的基本使用方法，可以根据实际需要进行灵活运用。

「已注销」

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。