python xpath定位嵌套标签_python-获取具有嵌套嵌套度的html元素的内容(以及内容的xpath)...

最新推荐文章于 2023-01-13 10:48:17 发布

风吹丁丁响当当

最新推荐文章于 2023-01-13 10:48:17 发布

阅读量851

点赞数

文章标签： python xpath定位嵌套标签

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42358594/article/details/113964805

版权

这篇博客介绍了如何使用BeautifulSoup编写递归函数，通过XPath获取HTML中嵌套标签的文本及其对应的XPath路径。文章展示了函数实现、示例输入输出，并解释了代码优化细节。

摘要由CSDN通过智能技术生成

我编写了一个递归函数,它将以以下格式返回字典中标签中所有文本的XPATH：

{'xpath1': {'text': 'text1'}, 'xpath2': {'text': 'text2'}, ...}

码：

from bs4 import BeautifulSoup, NavigableString

def get_xpaths_dict(soup, xpaths={}, curr_path=''):

curr_path += '/{}'.format(soup.name)

for item in soup.contents:

if isinstance(item, NavigableString):

if item.strip():

try:

xpaths[curr_path]['count'] += 1

count = xpaths[curr_path]['count']

curr_path += '[{}]'.format(count)

xpaths[curr_path] = {'text': item.strip()}

except KeyError:

xpaths[curr_path] = {'text': item.strip(), 'count': 1}

else:

xpaths = get_xpaths_dict(item, xpaths, curr_path)

return xpaths

html &

最低0.47元/天解锁文章

风吹丁丁响当当

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python xpath定位嵌套标签_python-获取具有嵌套嵌套度的html元素的内容(以及内容的xpath)...

我编写了一个递归函数,它将以以下格式返回字典中标签中所有文本的XPATH：{'xpath1': {'text': 'text1'}, 'xpath2': {'text': 'text2'}, ...}码：from bs4 import BeautifulSoup, NavigableStringdef get_xpaths_dict(soup, xpaths={}, curr_path=''):c...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。