在Python中Beautifulsoup移除、过滤掉指定的标签

这里写自定义目录标题

语法

tag.extract()

源码中对该方法的描述是“Destructively rips this element out of the tree”,即从(Beautiful Soup)树形结构中移除tag元素。

示例代码

from bs4 import BeautifulSoup

html = '<html><body><div>Hello World!</div><div>Hello Python!</div><div id="html">Hello HTML!</div><div>Hello ' \
       'BeautifulSoup!</div></body></html> '
soup = BeautifulSoup(html, "lxml")

# 移除id名为“html”的div标签
#      常规写法
# for tag in soup.select("#html"):
#     tag.extract()

#      推导式写法
tag_lst = [tag.extract() for tag in soup.select("#html")]
print('tag_lst:\n', tag_lst, '\n')

# soup是移除了指定标签的树形结构
print('html:\n', str(soup))

运行结果:

tag_lst:
 [<div id="html">Hello HTML!</div>] 

html:
 <html><body><div>Hello World!</div><div>Hello Python!</div><div>Hello BeautifulSoup!</div></body></html> 

参考:Python中Beautifulsoup去除/过滤掉特定标签_python使用soup过滤_春风化作秋雨的博客-CSDN博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值