python 按照xpath(full xpath)爬取数据

最新推荐文章于 2023-12-15 21:53:28 发布

lixinpeng16

最新推荐文章于 2023-12-15 21:53:28 发布

阅读量536

点赞数

文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lixinpeng16/article/details/126598707

版权

7.按照full xpath提取数据时结果为空：去掉某些无意义的tbody

8.不确定tbody或者div的id时爬取内容：
from bs4 import BeautifulSoup
from lxml import etree

获取id：
soup = BeautifulSoup(all[0][we], "lxml")
# 查找所有tbody 的id
div_list = soup.find_all('tbody')
id_list = []
for i in range(len(div_list)):
id_list.append(div_list[i]['id'])
id_list = list(set(id_list))
print(id_list)

爬取数据：
etree_html = etree.HTML(all[0][we])
sel = '/html/body/table/thead/tr/th/text()'
find = etree_html.xpath(sel)
print(find)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 按照xpath(full xpath)爬取数据

python 按照xpath(full xpath)爬取数据
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。