scrapy_spider_python爬坑

1、如何爬需要cookie的网站?

坑:认为需要我编程自己写算法,保存cookie

解决方法:在setting.py中设置:COOKIES_DEBUG = True

 

2、为什么我用CrawlSpider的rule一直无法爬下一个页面?

坑:我把CrawlSpider用成了原来的BaseSpider类,并且Rule的callback调用的是parse方法。这样就吃些了parse方法。

# def start_requests(self):

  #   print 'Begin start_requests........'

  #   for url in self.start_urls:

  #     print url

  #     return [Request(url)]

 

3.绝对是天坑,困扰了好几天的问题:

关键字:CrawlSpider rule login cookie

问题展现:

网上很多资料在scrapy的登陆上都对cookie的保存做了类似于该网页的操作:

对cookie的操作其实是完全没必要的,scrapy自有一套自动对cookie的保存;不对cookie操作会话自动保存了

 

 

4.在下载gif中遇到的一个问题,添加了class FilePipeline(FilesPipeline):没有任何问题,setting设置也设置了。然而执行的时候就是执行不到下载去,而且不报错。

然而只是,setting中的FILES_STORE没设置。

 

 

5.visual studio 如何调试scrapy,网上给出的的答案是

from scrapy.cmdline import execute

execute(['scrapy','crawl', 'your_scrapy_name'])

 

但我调试中窗口闪一下就没了。通过监控

execute(['scrapy', 'crawl', 'file'])

原因:启动命令的目录不在hkbici下。

解决方案:

from scrapy.cmdline import execute

import sys

import os

dirname=os.getcwd()

os.chdir(dirname+'\\hkbici')

print (os.getcwd())

execute(['scrapy', 'crawl', 'file'])

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Scrapy Redis是一个用于分布式取网页的Python框架。它是基于Scrapy框架的扩展,采用Redis作为分布式队列,可以在多个爬虫节点之间共享任务和数据。通过引入scrapy_redis.spider文件中的RedisSpider类,可以将原来继承的scrapy.Spider类改为RedisSpider类,从而实现对分布式爬虫的支持。 在使用分布式爬虫的过程中,首先需要将项目配置为分布式,并将项目拷贝到多台服务器中。然后启动所有的爬虫项目,这样每个爬虫节点都可以独立运行。接下来,在主redis-cli中使用lpush命令将需要取的网址推送到Redis队列中。这样,所有的爬虫节点都会开始运行,同时获取不同的任务和数据,实现分布式取的效果。 要使用Scrapy Redis进行分布式取,首先需要安装scrapy_redis包。可以通过在CMD工具中执行命令"pip install scrapy_redis"来进行安装。安装完成后,就可以在项目中使用scrapy_redis进行分布式取了。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Scrapy基于scrapy_redis实现分布式爬虫部署](https://blog.csdn.net/baoshuowl/article/details/79701303)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值