在linux上scrapyd部署scrapy项目时出现service_identity,并且不能识别其中的一个opentype模块...

一条简单命令

pip3 install service_identity --force --upgrade

不行就sudo !!以后碰到复杂的模块直接通过文件安装

转载于:https://www.cnblogs.com/zhuyafeng/p/9296598.html

Linux部署Scrapy项目并使其每天早上8点自动运行所有爬虫,你可以按照以下步骤操作: 1. **安装必要的工具**: - 首先,确保你已经安装了PythonScrapy以及相关的依赖项。可以使用`pip install scrapy`命令进行安装。 2. **编写Scrapy爬虫**: 创建或修改Scrapy项目的爬虫模块(如spiders文件夹内的.py文件),编写你需要运行的爬虫代码。 3. **创建调度任务**: 在Scrapy项目的settings.py文件中,配置默认的Spider中间件,例如使用`CronScheduler`,这是一个用于按计划调度的中间件。添加如下配置: ```python SCHEDULER = 'scrapy.crawler.CrawlerProcess' SCHEDULER_PERSIST = True CRONJOBS = [ ('0 8 * * *', 'your.spiderModuleName.run'), ] ``` 这里`'0 8 * * *'`是一个cron表达式,代表每天上午8点。 4. **定义Spider的run函数**: 在相应的爬虫类中,定义名为`run()`的方法,这是CronScheduler将会调用的实际爬虫启动方法。示例: ```python def run(self): self.crawl(SpiderName, **kwargs) # 如果你想让爬虫循环运行,可以使用以下代码 while True: self.crawl(SpiderName, **kwargs) time.sleep(60*60) # 每小运行一次 ``` 5. **保存设置**: 保存设置文件并退出编辑器。 6. **启用调度**: 在Scrapy shell中,通过运行`scrapy crawl <project_name> --settings=settings.py`命令来激活CronScheduler。首次运行可能会让你确认是否要启用这个功能,选择Yes。 7. **系统定任务**: 使用Linux系统的定任务服务,如Crontab。打开终端,输入`crontab -e`然后添加类似下面的行到你的用户Cronfile: ``` 0 8 * * * /usr/bin/python3 /path/to/your/project/manage.py crawl your_project_name ``` 确保替换`/usr/bin/python3`为你的Python解释器路径,`/path/to/your/project`为项目目录,并将`your_project_name`替换为你项目的名称。 完成以上步骤后,你的Scrapy项目会在每天早上8点自动运行爬虫。如果遇到任何错误,记得检查日志文件。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值