Scrapy是一款非常成熟的爬虫框架,可以抓取网页数据并抽取结构化数据。(官方网站:www.scrapy.org)。
Requirements
Python 2.5, 2.6, 2.7 (3.x is not yet supported)
Twisted 2.5.0, 8.0 or above
w3lib
lxml or libxml2 (if using libxml2, version 2.6.28 or above is highly recommended)
simplejson (not required if using Python 2.6 or above)
pyopenssl (for HTTPS support. Optional, but highly recommended)
准备工作
操作系统:RHEL 5.9
Zlib版本:zlib-1.2.8
Python版本:Python-2.7
zope.interface版本:zope.interface-3.8.0
Twisted版本:Twisted-12.0.0
w3lib版本:w3lib-1.0
libxml2版本:libxml2-2.7.4
pyOpenSSL版本:pyOpenSSL-0.12
Scrapy版本:Scrapy-0.14
安装配置
1、安装zlib
下载地址:http://www.zlib.net/
2、安装Python
我的系统中已经安装的Python 2.7
下载地址:http://www.python.org/download/(需要代理)
http://www.python.org/ftp/python/2.7.2/Python-2.7.2.tgz
默认情况下,Python程序被安装到/usr/local/lib/python2.7。
如果你的系统中还有其他版本的Python,例如我的系统中2.4版本的,所以要做一个符号链接:
[root@localhost python2.7]# mv /usr/bin/python /usr/bin/python.bak
[root@localhost python2.7]# ln -s /usr/local/bin/python /usr/bin/python
这样操作以后,在执行python,就生效了。
3、安装setuptools
这里主要是安装一个用来管理Python模块的工具,如果已经安装就跳过该步骤。如果你需要安装,可以参考下面的链接:
下载地址:http://pypi.python.org/packages/2.7/s/setuptools/