python xpath 解析html--<table>下<tb>、<ul>下<li>

最新推荐文章于 2023-10-23 15:48:35 发布

pcy1127918

最新推荐文章于 2023-10-23 15:48:35 发布

阅读量7.2k

点赞数 5

文章标签： xpath etree

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pcy1127918/article/details/79995247

版权

用xpath来解析一般标签都很简单，因为大多数到可以找到class或者是id等属性，确定一类情况。但是<table>下有多个<tb>，<ul>下有多个<li>，而且还没有属性，类似这种：

解决办法：

第一种：用etree.HTML()

res = etree.HTML(response.txt)
table_list = res.xpath('//table[@class="xx"]')#这里的写法和response.xpath一般写法大同小异
#得到table_list这个列表，循环里再进行操作
for table in table_list:
item["link"]= table.xpath('.//td[@class="xx"]//a[1]//@href')
第二种：

res = etree.HTML(response.txt)

之后xpath可以自己不用写，在要爬取的网页中，摁F12，会出现下边这个：

选择，之后把光标移到你要解析的地方，比如我要爬取的数据有‘泉州’：

看到右侧出现对应的源代码，之后鼠标右键copy->copy xpath，就可以得到/html/body/div[6]/div[1]/ul/li[2]/strong/a,再稍微修改下就可以了。

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。