python中的scrapy爬虫_python中用Scrapy实现定时爬虫的实例讲解

最新推荐文章于 2023-08-09 15:07:00 发布

南京周润发

最新推荐文章于 2023-08-09 15:07:00 发布

阅读量465

点赞数

文章标签： python中的scrapy爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30610771/article/details/114944542

版权

一般网站发布信息会在具体实现范围内发布，我们在进行网络爬虫的过程中，可以通过设置定时爬虫，定时的爬取网站的内容。使用python爬虫框架scrapy框架可以实现定时爬虫，而且可以根据我们的时间需求，方便的修改定时的时间。

1、scrapy介绍

scrapy是python的爬虫框架，用于抓取web站点并从页面中提取结构化的数据。任何人都可以根据需求方便的修改。scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

2、使用scrapy框架定时爬取

import time

from scrapy import cmdline

def dosth():

# 把爬虫程序放在这个类里 zhilian_spider 是爬虫的name

cmdline.execute('scrapy crawl zhilian_spider'.split())

# 想几点更新,定时到几点

def time_ti(h=17, m=54):

while true:

now = datetime.datetime.now()

# print(now.hour, now.minute)

if now.hour == h and now.minute == m:

dosth()

# 每隔60秒检测一次

time.sleep(60)

time_ti()

3、更简单的写法

import time

import sys

import os

import datetime

def dingshi():

while true:

os.system("scrapy crawl lcp")#lcp是我们爬虫的代码名字哦

time.sleep(60)

dingshi()

知识点扩展：

直接使用timer类实例代码

import time

import os

while true:

os.system("scrapy crawl news")

time.sleep(86400) #每隔一天运行一次 24*60*60=86400s或者，使用标准库的sched模块

import sched

#初始化sched模块的scheduler类

#第一个参数是一个可以返回时间戳的函数，第二个参数可以在定时未到达之前阻塞。

schedule = sched.scheduler ( time.time, time.sleep )

#被周期性调度触发的函数

def func():

os.system("scrapy crawl news")

def perform1(inc):

schedule.enter(inc,0,perform1,(inc,))

func() # 需要周期执行的函数

def mymain():

schedule.enter(0,0,perform1,(86400,))

if __name__=="__main__":

mymain()

schedule.run() # 开始运行，直到计划时间队列变成空为止关于cmd的实现方法，本人在单次执行爬虫程序时使用的是

cmdline.execute("scrapy crawl news".split())但可能因为cmdline是scrapy模块中自带的，所以定时执行时只能执行一次就退出了。

到此这篇关于python中用scrapy实现定时爬虫的实例讲解的文章就介绍到这了,更多相关python中使用scrapy实现定时爬虫内容请搜索萬仟网以前的文章或继续浏览下面的相关文章希望大家以后多多支持萬仟网！

希望与广大网友互动？？

点此进行留言吧！

南京周润发

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python中的scrapy爬虫_python中用Scrapy实现定时爬虫的实例讲解

一般网站发布信息会在具体实现范围内发布，我们在进行网络爬虫的过程中，可以通过设置定时爬虫，定时的爬取网站的内容。使用python爬虫框架scrapy框架可以实现定时爬虫，而且可以根据我们的时间需求，方便的修改定时的时间。1、scrapy介绍scrapy是python的爬虫框架，用于抓取web站点并从页面中提取结构化的数据。任何人都可以根据需求方便的修改。scrapy用途广泛，可以用于数据挖掘、监测...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。