在云服务器上运行你的爬虫程序

在服务器上跑数据是我们常常都需要做的一件事,这篇博客主要记录一下从配置服务器到拿到从服务器成功拿到数据整个过程我的操作,这里以腾讯云服务器为例

1.申请云服务器

这个没什么好讲的,腾讯云注册送7天体验服务器,阿里云送6个月,AWS送一年。因为只是体验,我开了个腾讯的,系统是ubuntu16.04。为了安全服务器只给了ubuntu用户,不给root用户,所以所有需要root权限的操作都必须要加上sudo,系统自带的python版本是2.7,而我的爬虫版本是3.5,因此首先要做的就是安装python3.5。

2.安装python3

首先要去官网下载你所需要的python版本
wget https://www.python.org/ftp/python/3.5.2/Python-3.5.2.tgz
下载完毕后解压
tar -xvf Python-3.5.2.tgz
创建安装路径
mkdir /usr/local/python3
编译
./configure –prefix=/usr/local/python3
安装
sudo make
sudo make install
修改软链接
mv /usr/bin/python /usr/bin/python_bak
ln -s /usr/local/python3/bin/python3 /usr/bin/python
验证
python -V
安装过程中可能会碰到某些依赖不存在,根据提示信息自行谷歌安装相应依赖即可

3.配置免密登陆

要在自己电脑上免密登陆服务器,需要现在自己电脑上生成一个公钥
ssh-keygen -t rsa,接下来会有三个配置项,一路回车用默认的即可
然后
cd ~/.ssh
可以看到一个文件叫做id_rsa.pub,这个就是你的公钥,再在当前文件夹执行
ssh-copy-id ubuntu@192.168.161.132
就可以把你的公钥拷贝到服务器的~/.ssh/authorized_keys里面,当然你也可以手动拷贝,不过用vim进行拷贝的时候容易多一个空格或者多一个回车导致失效
这样就配置完毕了,如果不能免密登陆,检查服务器配置是否开启了免密登陆
$vi /etc/ssh/sshd_config
检查下面几项是否配置正确
RSAAuthentication yes
PubkeyAuthentication yes
AuthorsizedKeysFile .ssh/authorized_keys
编辑完毕,再重启ssh服务
systemctl restart sshd.service

4.传输数据

常见有4种传输数据的办法,见Linux中传输文件的4种方式
我一般直接用scp
scp ~/test/scipt.py ubuntu@192.168.161.132:~/test/
输入密码就能传上去了,如果是文件夹需要加上-r选项
传上去后还需要让脚本在后台执行,不然控制台被关闭进程就被关了,后台执行的语句是
nohup python -u script.py > log.out &
这里,> log.out 表示将控制台输出输出到log.out文件中
-u选项表示每多一条信息就实时输出到log.out中,而不是全部输出完毕再输出
&符号表示在后台执行,运行时可以查看日志或者运行
ps -ef |grep python
查看后台运行的python进程,程序运行完毕执行可以通过
du -h -d 1 –all
以k、M、G为单位的更友好的方式查看跑出来的数据大小,决定需不需要打压缩包,再执行
scp -r ubuntu@192.168.161.132:~/test/data ~/test/
将数据拷贝到本地,这里不能在服务器上执行scp,因为我们的电脑往往没有固定的ip,这样就完成了在服务器上执行爬虫的全过程

  • 9
    点赞
  • 65
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值