前言
当scrapy爬虫项目中含有大量爬虫时(几百甚至更多),我们使用网上所介绍的scrapy同时启动多个爬虫方法会造成因端口不足而使爬虫运行失败。所以当我们的项目中含有大量爬虫时,可以考虑逐个运行爬虫,这样虽然运行时间长了一些但是可以令所有的爬虫都能运行。
一、配置环境
安装爬虫所需要的一些库,这里不再详述。我们主要讲述爬虫的部署以及如何让爬虫在服务器上定时自动运行。
二、编写爬虫运行程序
在spiders文件夹的同级下创建一个新的py文件,命名为run.py,然后编写这个文件,代码如下:
#-*- coding:utf8 -*-
import os
import re
import time
import subprocess
for filename in os.listdir(r'/home/Spidernet/Spider/peoplenet/peoplenet/spiders'):
file_path = os.path.join(r'/home/Spidernet/Spider/peoplenet/peoplenet/spiders',filename)
if os.path.splitext(file_path)[1] == '.py' and filename != 'run.py' and filename != '__init__.py':
temp = ['scrapy','crawl']
ru1 = re.compile(r'(.*).py')
spiderName = ru1.search(filename).group(1)
print(spiderName)
temp