1.到阿里云注册账号,购买ECS云服务器(我用的是轻量应用服务器),选择系统镜像(我用ubuntu16.04),启动服务器,注意要设置密码,记住密码,以后访问是会用到公网IP 和密码.
2.进入远程服务器,最方便的方法就是在Windows或者Linux终端输入ssh 39.107.112.189 -l root ,(39.107.112,189是我的公网IP,你应该书自己买的阿里云上的公网IP),然后输入上面再阿里云设置的密码就可以进入了
3.安装python和pip,网上有教程.
4.安装MongoDB数据库的服务的和用户端,在阿里云里面要对27017端口开放防火墙,在mongod的配置文件里面修改bind-id由127.0.0.1改为0.0.0.0,目的是为了外网访问,在Linux服务器开放27017端口,过程百度.
5.安装scrapy,百度找教程.
6.将scrapy文件夹tar打包用scp远程拷贝到云服务器,进入到spider文件夹里面运行scrapy crawl ***(爬虫名).这样就可以运行爬虫了.
7.可以设置定时任务,利用Linux里面的crontab定时执行爬虫工作.操作很简单,写个shell脚本,比如
用vi写,比如vi run.sh
cd `dirname $0` || exit 1
python ./main.py >> run.log 2>&1
然后chmod +x run.sh 添加可执行权限
然后再终端执行crontab -e
再里面设置如下:
0 6 * * * /home/ubuntu/..../myspider.sh >> /home/ubuntu/.../run2.log 2>&1
保存退出就万事大吉了.
讲的有点简略,大家不懂的地方可以取百度,网速都有步骤.