首先写一个main函数:
import sys
import os
from scrapy.cmdline import execute
def start_scrapy(): # 这个是我的任务,可以换成自己的任务哈
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', 'spider_name'])
方法一:使用while关键字
import sys
import os
from scrapy.cmdline import execute
import schedule
import time
# 见上一步,这里我们写成一个函数的形式
def start_scrapy():
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', 'spider_name'])
schedule.every(30).minutes.do(start_scrapy) # 每30分钟执行一次,注意这里的参数传递的是函数名,不要加括号
#schedule.every().hour.do(job)#每隔一小时执行一次任务
#schedule.every().day.at("23:30").do(job)#每天的23:30执行一次任务
#schedule.every().monday.do(job)#每周一的这个时候执行一次任务
#schedule.every().wednesday.at("23:30").do(job)#每周三23:30执行一次任务
# 只要程序不关,就会循环执行
while True:
schedule.run_pending()
time.sleep(1)
方法二:使用apscheduler第三方库
首先安装依赖pip install apscheduler
import sys
import os
from scrapy.cmdline import execute
from apscheduler.schedulers.blocking import BlockingScheduler
def start_scrapy():
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', 'spider_name'])
sched = BlockingScheduler()
sched.add_job(start_scrapy, 'interval', seconds=10) #这里每10s执行一次 start_scrapy() ,注意传参的时候不要加括号
sched.start()
这是一些常用的配置
#执行一次:
#2019年3月1日0时0分0秒执行该程序
sched.add_job(job_fun, 'cron', year=2019,month = 03,day = 1,hour = 0,minute = 0,second = 0)
#从星期一到星期五5:30(AM)直到2014-05-30 00:00:00
sched.add_job(job_fun, 'cron', day_of_week='mon-fri', hour=5, minute=30,end_date='2014-05-30'
#间隔多长时间后执行
#每隔30分钟执行一次
sched.add_job(my_job, 'interval',minutes = 30)
#每隔2天10时20分30秒执行一次任务
sched.add_job(my_job, 'interval',days = 2,hours = 10,minutes = 20,seconds = 30)
#注意:执行一次时是day,间隔执行时为days,注意参数后面是否加's'
方法三:使用源生sched做循环的任务
import time
import sched
import sys
import os
from scrapy.cmdline import execute
# 周期性执行给定的任务
s = sched.scheduler(time.time, time.sleep)
# 被周期性调度触发的函数
def start_scrapy():
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', 'xinwen_spider'])
def perform(inc):
s.enter(inc, 0, perform, (inc,))
start_scrapy()
#每30 * 60 s执行一次(30分钟)
def main_scrapy(inc=1800): # 修改这里的秒数,就是想要循环执行的次数
s.enter(0, 0, perform, (inc,))
s.run()
if __name__ == "__main__":
main_scrapy()