scrapy爬取到的数据为空

有梦生

已于 2024-03-22 09:10:49 修改

阅读量347

点赞数 6

分类专栏： python学习文章标签： scrapy java 数据库

于 2024-03-21 22:43:12 首次发布

本文链接：https://blog.csdn.net/qq_52772669/article/details/136922907

版权

python学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

使用scrapy爬取58同城的数据，发现xpath路径正确，第一次运行确实可以输出数据，但是第二次运行后却返回了一个空列表，代码如下

import scrapy


class Tongcheng58Spider(scrapy.Spider):
    name = "tongcheng58"
    allowed_domains = ["cn.58.com"]
    start_urls = ["https://cn.58.com/jiadian/?PGTID=0d100000-008d-26ef-fe66-3e870a34ef93&ClickID=4"]
    def parse(self, response):
        print("===============================================================")
        content=response.xpath('//div/a/h1')
        print(content.extract())

网上说是【allowed_domains】需要补全，所以尝试了把【start_urls】的内容复制给了【allowed_domains】，但是经过尝试并没有用。猜测或许是scrapy的版本之间的差别。

又因为第一次运行时能够输出内容，因此排除了xpath路径问题。

最终尝试了发现是头信息里的cookie没有设置，scrapy默认用了它内部设置的头信息。于是对setting里面的内容进行修改就可以了：

1.打开settings.py文件

2.取消注释COOKIES_ENABLE = False

3.设置headers,添加cookie,以及UA，如果有referer的话也添加进去

3.执行scrapy crawl tongcheng58结果如下图所示，成功输出内容

有梦生

关注

6
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
scrapy爬取到的数据为空

网上说是【allowed_domains】需要补全，所以尝试了把【start_urls】的内容复制给了【allowed_domains】，最终尝试了发现是头信息里的cookie没有设置，scrapy默认用了它内部设置的头信息。使用scrapy爬取58同城的数据，发现xpath路径正确，第一次运行确实可以输出数据，但是第二次运行后却返回了一个空列表，代码如下。3.设置headers,添加cookie,以及UA，如果有referer的话也添加进去。又因为第一次运行时能够输出内容，因此排除了xpath路径问题。
复制链接

扫一扫