在Python爬虫中，如何实现定时任务？

最新推荐文章于 2024-11-11 22:41:20 发布

莉莉芙

最新推荐文章于 2024-11-11 22:41:20 发布

阅读量1.4k

点赞数 17

文章标签： python 开发语言

本文链接：https://blog.csdn.net/2301_80354401/article/details/139648400

版权

在Python中实现定时任务，特别是在编写爬虫程序时，可以利用schedule库来简化任务的调度。schedule是一个轻量级的任务调度库，允许你以人类可读的格式安排任务，例如按照一定的时间间隔、特定的日期和时间执行任务。

安装 `schedule`

首先，确保你已经安装了schedule库。如果没有，可以通过pip轻松安装：

pip install schedule

示例代码

以下是一个使用schedule库实现定时任务的Python爬虫示例。

import requests
import schedule
import time

def crawl_website():
    url = "https://www.example.com"  # 目标网址
    try:
        response = requests.get(url)
        print(f"{time.strftime('%Y-%m-%d %H:%M:%S', time.localtime())} - {response.status_code}")
        # 在这里添加你的爬虫逻辑，例如解析网页内容等
        # 这里我们只是简单地打印了响应状态码
    except requests.RequestException as e:
        print(f"请求错误： {e}")

# 定时任务配置
# 每天的09:00, 13:00, 17:00, 21:00各执行一次
schedule.every().day.at("09:00").do(crawl_website)
schedule.every().day.at("13:00").do(crawl_website)
schedule.every().day.at("17:00").do(crawl_website)
schedule.every().day.at("21:00").do(crawl_website)

# 每隔5分钟执行一次
schedule.every(5).minutes.do(crawl_website)

# 每隔1小时执行一次
schedule.every(1).hours.do(crawl_website)

print("任务调度开始")

# 持续运行定时任务
while True:
    schedule.run_pending()
    time.sleep(1)

代码解释

crawl_website 函数：定义了爬虫的主要逻辑，包括请求目标网址并处理响应。你可以根据需要修改这个函数，以便解析和存储网页数据。
使用 schedule.every().day.at("HH:MM").do(function) 来安排每天特定时间执行的任务。
使用 schedule.every(number).minutes.do(function) 或 schedule.every(number).hours.do(function) 来设置每隔一定时间执行的任务。
最后，通过一个无限循环 while True 结合 schedule.run_pending() 来持续检查并执行待处理的任务。

这种方法非常适合于需要定期执行的数据抓取任务，可以帮助你轻松管理爬虫的运行时间表。