分布式爬虫linux部署环境步骤
1. (以下为linux环境下进行)
Scrapy的安装有多种方式,它支持Python2.7版本及以上或Python3.3版本及以上,scrapy的依赖库比较多
执行如下命令安装依赖库:
sudo apt-get install build-essential python3-dev libxml2-dev python3-pip libxslt1-dev zlib1g-dev libffi-dev libssl-dev
注意:可以先使用命令 apt-get update 先升级apt-get后在安装依赖库
2. (在windows下执行)
安装windows下项目所用到的包
先使用命令行进入到开发目录中,然后执行如下命令,命令作用为将项目所用到的包放到一个文件中
pip freeze > requirements.txt
注意:使用pip命令的时候一定要进入你需要进行部署的项目的虚拟环境
3.(在linux环境下执行)
如下命令将windows的文件发送到服务器(linux)
rz
补充:
通常linux服务器是通过ssh客户端来进行远程登录和管理的。
然而如何方便的实现客户端与linux服务器端的文件交互呢?这就需要用到rz(上传)、sz(下载)工具。
sudo apt-get install lrzsz
4.(在linux环境下执行)
参考网址:https://www.cnblogs.com/freely/p/8022923.html
创建虚拟环境,创建虚拟环境的原因为在windows下每个项目所用到的包都不一样,所以在linux下需要创建一个虚拟环境,在这个虚拟环境中安装该项目所用到的包,进行数据抓取,每个项目都对应一个虚拟环境,创建虚拟环境命令如下(这里要安装到python3的环境下):
mkvirtualenv –p /usr/bin/python3 crawler-env
解析:
-p :python的路径
后面是指定的环境名
root@zt-VirtualBox:~# which python3
/usr/bin/python3
或使用如下命令创建虚拟环境:
mkvirtualenv env_fang --python=python3.5
补充 :
安装mkvirtualenv 相关模块:
pip install virtualenv
pip install virtualenvwrapper
sudo apt-get install python-virtualenv
注意:因为我的linux中有python2.7和python3.5所以我在执行上免前两个pip命令的时候,分时在python2.7和3.5的环境下安装
eg:
pip install virtualenv python2.7
pip3 install virtualenv python3.5
上述工具装好后找不到mkvirtualenv命令,需要执行以下环境变量设置。
1.创建目录用来存放虚拟环境 mkdir $HOME/.virtualenvs 2.在~/.bashrc中添加行: export WORKON_HOME=$HOME/.virtualenvs source /usr/local/bin/virtualenvwrapper.sh 3.运行: source ~/.bashrc 4.这里可能会报错: bash: /usr/local/bin/virtualenvwrapper.sh: 没有那个文件或目录 将上面.bashrc中的内容改成如下即可: export WORKON_HOME=$HOME/.virtualenvs source ~/.local/bin/virtualenvwrapper.sh
参考网址:
https://blog.csdn.net/liu_xzhen/article/details/79293373
https://blog.csdn.net/gyniu/article/details/81022534
5.(在linux环境下执行)
在创建环境后系统会自动进入到虚拟环境中,执行如下命令安装项目所需要的包
pip install –r requirements.txt
补充:
Linux下不需要安装pywin32,所以在文件中,将pywin32删除即可
到这里算是部署成功