scrapy定时爬取

最新推荐文章于 2022-07-24 19:57:11 发布

_冰澈

最新推荐文章于 2022-07-24 19:57:11 发布

阅读量5.8k

点赞数

本文链接：https://blog.csdn.net/qq_42832858/article/details/97395465

版权

# 初始化sched模块的scheduler类,第一个参数是一个可以返回时间戳的函数,第二个参数可以再定时未到之前阻塞.
schedule = sched.scheduler(time.time, time.sleep)


# 被周期调用的函数
def func():
    os.system("scrapy crawl jsda")  # 爬取网页上直接能看到的列表
    os.system('scrapy crawl jiangxi')  # 爬取需要下载文件的
    os.system('python parseexcel.py')  # 解析docx和Excel文件到数据库
    print('finished!')  # 结束标志


def perform1(inc):
    schedule.enter(inc, 0, perform1, (inc,))
    func()  # 需要周期执行的函数


def mymain():
    schedule.enter(0, 0, perform1, (60 * 60 * 24,))


if __name__ == '__main__':
    mymain()
    schedule.run()  # 开始运行, 直到计划时间队列变成空为止

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

_冰澈

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
scrapy定时爬取

# 初始化sched模块的scheduler类,第一个参数是一个可以返回时间戳的函数,第二个参数可以再定时未到之前阻塞.schedule = sched.scheduler(time.time, time.sleep)# 被周期调用的函数def func(): os.system("scrapy crawl jsda") # 爬取网页上直接能看到的列表 os.syste...
复制链接

扫一扫