python xpath 解析html--<table>下<tb>、<ul>下<li>

用xpath来解析一般标签都很简单,因为大多数到可以找到class或者是id等属性,确定一类情况。但是<table>下有多个<tb>,<ul>下有多个<li>,而且还没有属性,类似这种:




解决办法:

第一种:用etree.HTML()

res = etree.HTML(response.txt)
table_list = res.xpath('//table[@class="xx"]')#这里的写法和response.xpath一般写法大同小异
#得到table_list这个列表,循环里再进行操作
for table in table_list:
item["link"]= table.xpath('.//td[@class="xx"]//a[1]//@href')
第二种:

res = etree.HTML(response.txt)

之后xpath可以自己不用写,在要爬取的网页中,摁F12,会出现下边这个:

选择,之后把光标移到你要解析的地方,比如我要爬取的数据有‘泉州’:


看到右侧出现对应的源代码,之后鼠标右键copy->copy xpath,就可以得到/html/body/div[6]/div[1]/ul/li[2]/strong/a,再稍微修改下就可以了。


  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值