scrapy多爬虫以及爬取速度

    主要这段时间一直使用的就是scrapy这个框架,因为公司里面需要爬取大量的网站,所以才使用了多爬虫,但是目前测试也只是几十个,一直也想不到更好的方法去同时抓取成千上百个结构不同的网站,所以也很是苦逼的用了scrapy里面的多爬虫,对每个网站分别解析,还好虽然几次改需求但是字段都是统一的,可以很轻松的通过itempipline去入库。
    像多爬虫这个东西,我也是参考一些大牛发的博客,文档什么的,是通过创建commands目录来实现多爬虫爬取。
    废话不多说,我们创建commands目录的时候必须注意commands和spiders目录是同级的,在commands下面添加一个文件crawlall.py,里面的内容都是固定的。crawl的源码可以在此查看:https://github.com/scrapy/scrapy/blob/master/scrapy/commands/crawl.py

步骤就是:
1、mkdir commands
2、commands创建文件crawlall.py,把源码复制粘贴过去
3、不要忘记创建一个_init_文件,这个如果忘了的话也是不行的
4、settings.py目录下创建setup.py,这一步我并没有做,但是好多都说需要写上这一步,我就在这添加上吧。
附上里面的代码

    from setuptools import setup, find_packages
    setup(name='scrapy-mymodule',
    entry_points={
    'scrapy.commands': [
    'crawlall=cnblogs.commands:crawlall',
    ],
     },
     )

这个文件的含义是定义了一个crawlall命令,cnblogs.commands为命令文件目录,crawlall为命令名。
5. 在settings.py中添加配置:

    COMMANDS_MODULE = 'cnblogs.commands'

这个千万不能忘,settings毕竟掌控着各大文件

然后我们运行代码的时候可以创建一个run.py,附上我的run文件的代码

# coding:utf-8
from scrapy import cmdline
import sys,os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
if __name__=="__main__":
cmdline.execute(['scrapy','crawlall'])  

运行的时候我们只需要运行run.py所有的spider就会跑起来了。

因为文件比较多,所以这时候我们需要在settings下面添加

 CONCURRENT_REQUESTS

提高并发数,其实像一些IO密集型什么的我也不是特别理解,也不能跟大家解释了,还有就是把timeout设置的小一些,我当时设置的是30

DOWNLOAD_TIMEOUT=30

配置完这些基本上在速度方面上还是可以的,如果还有更好的方法可以随时给我提,这也只是我的一些理解,如果有不对的地方可以说出来,会及时更正。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值