正则去除xpath取到的所有html标签中的属性

最新推荐文章于 2024-04-13 20:34:34 发布

legendary_Dragon

最新推荐文章于 2024-04-13 20:34:34 发布

阅读量772

点赞数 1

分类专栏： xpath re html属性文章标签： html xpath 正则表达式

本文链接：https://blog.csdn.net/legendary_Dragon/article/details/108148450

版权

xpath 同时被 3 个专栏收录

7 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

html属性

1 篇文章 0 订阅

订阅专栏

因为最近有一些特殊需求，需要剔除xpath取到的所有标签的所有属性。代码如下，有bug可以和我反馈。

import re
from lxml import etree

html = """<div class="box"><h1><strong id="d7" class= "k8">测试</strong></h1><div><p></p></div></div>"""
doc = etree.HTML(html)
msg = doc.xpath("//div[@class='box']")[0]
# 取该div下的所有标签及文本
html_str = etree.tostring(msg, method="html", encoding='utf8').decode("utf-8")
# 正则匹配所有的属性
tag_style = re.findall(r'<[^>]*?(\s.*?)>', html_str)
# 替换所有的属性为""
for tag in tag_style:
	html_str = html_str.replace(tag, '')
print(html_str)

打印结果如下：

<div><h1><strong>测试</strong></h1><div><p></p></div></div>

————————————————分割线——————————————

最近发现第二种方法更为简单，直接上代码, 核心方法为strip_attributes()

    if doc.xpath('//p[@class="keywords"]/a'):
        msg = doc.xpath('//p[@class="keywords"]/a')[0]
        etree.strip_attributes(msg, "{}*")
        result = etree.tostring(msg, method="html", encoding='utf-8').decode()
        return result

返回结果只有标签和文本，没有标签的属性。

legendary_Dragon

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
正则去除xpath取到的所有html标签中的属性

因为最近有一些特殊需求，需要剔除xpath取到的所有标签的所有属性。代码如下，有bug可以和我反馈。import refrom lxml import etreehtml = """<div class="box"><h1><strong id="d7" class= "k8">测试</strong></h1><div><p></p></div></div>"""doc = et
复制链接

扫一扫

专栏目录