本文介绍了如何把windows下面的scrapy脚本部署到AWS Ubuntu上,并使用crontab定时执行。
我的scrapy爬虫原来部署在windows服务器,爬虫每个小时从几个字幕网站爬字幕。字幕文件(即文本文件保)存在本地,但是字幕的metadata保存在Azure Database上。除了python爬虫,我还有一个.net程序复制处理爬虫获取的数据。
申请AWS EC2 Ubuntu虚拟机
AWS不用翻墙就能使用,而且提供免费虚拟机。申请的时候,只需要注意Security Group就行了。
我申请的是Ubuntu Server 18.04
Security Group
Inbound使用默认值,即SSH-TCP-22。
Outbound我加上了HTTP,HTTPS和MSSQL。
安装各种软件
首先安装Miniconda
https://docs.conda.io/en/latest/miniconda.html
安装以后修改PATH
export PATH=~/anaconda3/bin:$PATH
然后推出exit,并重新连接。
然后安装scrapy