scrapy爬虫代理——利用crawlera神器，无需再寻找代理IP

最新推荐文章于 2024-09-25 16:09:22 发布

lujinjiexd

最新推荐文章于 2024-09-25 16:09:22 发布

阅读量4k

点赞数

分类专栏： scrapy 文章标签：爬虫代理 crawlera

scrapy 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、crawlera平台注册

首先申明，注册是免费的，使用的话除了一些特殊定制外都是free的。

1、登录其网站 https://dash.scrapinghub.com/account/signup/

填写用户名、密码、邮箱，注册一个crawlera账号并激活

2、创建Organizations,然后添加crawlear服务

然后点击 +Service ,在弹出的界面点击Crawlear，输入名字，选择信息就创建成功了。

创建成功过后点击你的Crawlear名字便可以看到API的详细信息。

二、部署到srcapy项目

1、安装scarpy-crawlera

pip install 、easy_install 随便你采用什么安装方式都可以

1	`pip install scrapy` `-` `crawlera`

2、修改settings.py

如果你之前设置过代理ip，那么请注释掉，加入crawlera的代理

1

2

3

4

5

 
        DOWNLOADER_MIDDLEWARES  
        =  
        { 
       
        # 'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110, 
       
        # 'partent.middlewares.ProxyMiddleware': 100, 
       
        'scrapy_crawlera.CrawleraMiddleware' 
        :  
        600 
       
        }

为了是crawlera生效，需要添加你创建的api信息（如果填写了API key的话，pass填空字符串便可）

1

2

3

 
        CRAWLERA_ENABLED  
        =  
        True 
       
 
        CRAWLERA_USER  
        =  
        '<API key>' 
       
 
        CRAWLERA_PASS  
        =  
        '' 
       

为了达到更高的抓取效率，可以禁用Autothrottle扩展和增加并发请求的最大数量，以及设置下载超时，代码如下

1

2

3

4

 
        CONCURRENT_REQUESTS  
        =  
        32 
       
 
        CONCURRENT_REQUESTS_PER_DOMAIN  
        =  
        32 
       
 
        AUTOTHROTTLE_ENABLED  
        =  
        False 
       
 
        DOWNLOAD_TIMEOUT  
        =  
        600 
       

如果在代码中设置有 DOWNLOAD_DELAY的话，需要在setting.py中添加

1	`CRAWLERA_PRESERVE_DELAY` `=` `True`

如果你的spider中保留了cookies,那么需要在Headr中添加

1

2

3

4

5

 
        DEFAULT_REQUEST_HEADERS  
        =  
        { 
       
        # 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 
       
        # 'Accept-Language': 'zh-CN,zh;q=0.8', 
       
        'X-Crawlera-Cookies' 
        :  
        'disable' 
       
        }