关于xpath解析出空列表的原因

最新推荐文章于 2023-08-09 15:34:20 发布

Sanzy_k

最新推荐文章于 2023-08-09 15:34:20 发布

阅读量8.3k

点赞数 13

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/sanzy_k/article/details/107485026

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第一种，网上搜的很多关于这方面的内容都是与tbody标签有关，解决方法无非是去掉这个标签
第二种，网页标签class，id属性等一定要注意看后面有没有空格
第三种，xpath表达式正确，仍然解析不出，一定要查看对应网址的网页源码，即检查工具response部分，看源码是否是如下样式! 在这里插入图片描述
该样式代表源码被注释掉，所以即使xpath表达式正确也仍然解析不到，解决方法有两种，其一可以更换比较低级的user-agent ，再者是

 def parse_data(self,data):
        #提取数据一切以源码为准，源码变绿表示被注释掉，可以更换低级ua,第二种如下
        data = data.decode().replace('<!--','').replace('-->','')
        tree = etree.HTML(data)
        el_list = tree.xpath('//li[@class=" j_thread_list clearfix"]/div/div[2]/div[1]/div[1]/a')

本人因为正在学习爬虫，此篇文章可以帮一下小白，写的不好大佬勿喷，若有不对请指出方便修改谢谢

Sanzy_k

关注

13
点赞
踩
44

收藏

觉得还不错? 一键收藏
4
评论
关于xpath解析出空列表的原因

第一种，网上搜的很多关于这方面的内容都是与tbody标签有关，解决方法无非是去掉这个标签第二种，网页标签class，id属性等一定要注意看后面有没有空格第三种，xpath表达式正确，仍然解析不出，一定要查看对应网址的网页源码，即检查工具response部分，看源码是否是如下样式!该样式代表源码被注释掉，所以即使xpath表达式正确也仍然解析不到，解决方法有两种，其一可以更换比较低级的user-agent ，再者是 def parse_data(self,data): #提取数据一切以
复制链接

扫一扫