前言:很多人都是奔着爬虫去学习Python的,Scrapy是基于python的一个爬虫框架,小编在学习的时候按照书上来一步一步走,很遗憾失败了。又按照网上乱七八糟的安装教程来安装,结果可想而知。我在这里总结一下,希望想学习爬虫的同学,少走一些弯路。
首先我们来安装Python。我在这里多说两句,Python分为2.7和3.0。Python3上的语法变化比较大,而且Python 3.0在设计的时候没有考虑向下兼容。有人说Python2.7已经out了,从Python3开始学。有人说Python2.7现在站的比例非常高等等。。。我劝你都学,没有害处的。废话到此结束。
下载python2.7.3(python3和2.7.3安装以及环境配置相同):
wget https://www.python.org/ftp/python/2.7.13/Python-2.7.13.tgz
解压到opt目录下
tar -zxvf Python-2.7.13.tgz
进入解压后Python的目录
1. ./configure
2. make install
输入python,如下图就代表python开发环境已经ok了
开始安装scrapy做准备
首先我们先更新一下软件库
centos:yum update
ubuntu:apt-get update
一定要更新,我按照书上的安装方法没有成功,但是我重新安了个镜像后,第一次开机更新了一下软件库,相同的安装过程居然成功了。估计就是软件库太过陈旧,造成了莫名的错误。
安装GCC相关的扩展包
yum install gcc libffi-devel python-devel openssl-devel (话说最新的redis编译老是失败都是因为GCC)
安装开发工具包
yum groupinstall -y development
安装libxslt-devel
yum install libxslt-devel
安装pip
yum -y install python-pip
安装scrapy
pip install scrapy
我们采用以上步骤就能轻松安装完成。相对于别的方法,这是最简单的也是最不容易出错的方法。
下面我们来验证一下:
我们先进入python的交互界面
然后输入:import lxml,如果什么都没有那就代表没有问题,如下图
退出来,输入scrapy version 如下图:
到此简单的安装就完成了。
总结我安装失败的原因:
1.服务器环境复杂,真的是啥都有mysql,redis,hadoop,spark,java,scala,python等等。。。配置文件乱七八糟
2.应用库过于陈旧update提示要900M+
3.安装依赖的先后顺序没有严格执行,而且版本有出入。
如我你安装失败有我类似的情况,那么你按照文章来就不会有问题。