Scrapy是一个Python实现的轻量级爬虫框架,它借助Twisted实现异步抓取。关于Scrapy的简介,可以参考官网文档Scrapy at a glance,关于业界对Scrapy的评价,可以参考Quora上的这篇问答帖Is there a better crawler than Scrapy?
本文给出两种安装Scrapy的方式:1) 通过pip安装;2) 通过源码编译安装。
1. 通过pip安装Scrapy借助pip来安装Scrapy也是手册Scrapy Installation Guide建议的方式。
1.1 安装pip
pip是一个开源的Python包管理工具,根据其官网说明,安装pip只需2步:1) 先获取get-pip.py;2) 执行python get-pip.py即可。但我的机器执行第2步时,会报下面的错误:
$ python get-pip.py
Collecting pip
Could not find any downloads that satisfy the requirement pip
No distributions at all found for pip
不清楚是否跟公司网络设置有关(网络是否限制对pypi源的访问?待求证),无奈之下,只能获取pip源码包(从
这里)解压后,再执行python setup.py
build和python setup.py install来手动安装。只要Python环境事先已装好easy_install工具,则pip源码安装过程一般不会出错,这里不赘述。 1.2 安装Scrapy
在pip成功安装的前提下,执行以下命令:
pip install Scrapy
正常情况下,pip会自动拉取编译Scrapy依赖的其它python包,
但由于pip可能调用setuptools去拉取依赖包,而后者可能因为openssl的原因,拉取依赖包失败。这时,我们可以通过下面的命令绕过setuptools,而是用pip直接拉取那个会失败的包:
pip i