解决Scrapy请求丢失问题

最新推荐文章于 2022-07-08 21:31:12 发布

小鱼干儿♛

最新推荐文章于 2022-07-08 21:31:12 发布

阅读量989

点赞数

分类专栏： python 爬虫文章标签：爬虫 python

本文链接：https://blog.csdn.net/qq_52007481/article/details/119753984

版权

python 同时被 2 个专栏收录

55 篇文章 25 订阅

订阅专栏

爬虫

12 篇文章 3 订阅

订阅专栏

在使用Scrapy爬取多页数据时，容易出现丢失请求，数据爬取不完整的问题

	def parse_city(self, response):
        month_urls = []
        li_list = response.xpath('/html/body/div[7]/div[1]/div[13]/div/div/ul/li/a/@href').extract()
        for li in li_list:
            day_q = li[-11:-5]
            if int(day_q) > 201600:
                # 月份的完整URL
                month_url = 'https://lishi.tianqi.com' + li
                month_urls.append(month_url)
        print(len(month_urls))
        for m_url in month_urls:
            # print(m_url)
            yield scrapy.Request(url=m_url, callback=self.parse_day)

    def parse_day(self,response):
        print(response)

问题：67个url只成功50个左右

如果settings.py文件中设置为LOG_LEVEL = 'ERROR'，即使有部分的url请求失败也不会出现报错信息
应将LOG_LEVEL = 'ERROR'改为LOG_LEVEL = 'INFO'，这样就可以看到出现问题的url，出错的原因

# LOG_LEVEL = 'ERROR'
LOG_LEVEL = 'INFO'

我的错误为 403 访问被拒

scrapy.spidermiddlewares.httperror INFO: Ignoring response <403 https://lishi.tianqi.com/zhengzhou/202001.html>:  HTTP status code is not handled or not allowed

原因应该是在一定时间内过多地访问此网站，被网站的反爬机制识别了

解决方法：
1、降低自己的访问速度（我一开始是这样做的，但是效果不太好）
2、做伪装，使用UA池和代理IP池

小鱼干儿♛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
解决Scrapy请求丢失问题

在使用Scrapy爬取多页数据时，容易出现丢失请求，数据爬取不完整的问题 def parse_city(self, response): month_urls = [] li_list = response.xpath('/html/body/div[7]/div[1]/div[13]/div/div/ul/li/a/@href').extract() for li in li_list: day_q = li[-11:-5]
复制链接

扫一扫