关于xpath解析出空列表的原因

第一种,网上搜的很多关于这方面的内容都是与tbody标签有关,解决方法无非是去掉这个标签
第二种,网页标签class,id属性等一定要注意看后面有没有空格
第三种,xpath表达式正确,仍然解析不出,一定要查看对应网址的网页源码,即检查工具response部分,看源码是否是如下样式!在这里插入图片描述
该样式代表源码被注释掉,所以即使xpath表达式正确也仍然解析不到,解决方法有两种,其一可以更换比较低级的user-agent ,再者是

 def parse_data(self,data):
        #提取数据一切以源码为准,源码变绿表示被注释掉,可以更换低级ua,第二种如下
        data = data.decode().replace('<!--','').replace('-->','')
        tree = etree.HTML(data)
        el_list = tree.xpath('//li[@class=" j_thread_list clearfix"]/div/div[2]/div[1]/div[1]/a')

本人因为正在学习爬虫,此篇文章可以帮一下小白,写的不好大佬勿喷,若有不对请指出方便修改谢谢

  • 13
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值