一直都想写一个Python爬虫玩玩,但是总没有抽出时间,趁着这个放假的几天闲暇,看了一下Python爬虫相关的东西,然后就发现了Scrapy这个项目。
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。——摘自《百度百科》
下面主要介绍一下在Windows下安装Scrapy的过程。
1、在Scrapy官网,按照install guide。安装了Python2.7(注意,目前,scrapy还没有支持Python3 但是准备后续支持Python3.3+,敬请期待!),然后添加了Python环境变量——C:/Python27;C:/Python27/Tools/Scripts(自己系统请对号入座)
2、安装pip and setuptools,其实这两个,只需要安装pip就行了,安装pip的过程中,会默认下载安装setuptools。下载安装之后,记得将pip的路径加到环境变量!具体路径为 C:/Python27/Scripts(同样各位记得对号入座)。
3、安装lxml :使用命令 pip install lxml;
4、安装 scrapy 使用命令:pip install Scrapy;
至此,Scrapy安装完毕,但是,在Windows下的用户请注意,如果直接这样安装,在后面运行scrapy项目的时候,会出现
ImportError: No module named win32api
的问题,这个问题,官网的解释如下:You need to install pywin32 because of this Twisted bug.
下载pywin32之后(下载链接:http://sourceforge.net/projects/pywin32/files/pywin32/Build%20219/,根据相应版本平台选择下载),问题解决!
至此,Scrapy安装完毕!
Scrapy相关链接:
Scrapy Home Page: http://doc.scrapy.org/en/latest/index.html
Scrapy Install Guide:http://doc.scrapy.org/en/latest/intro/install.html
Scrapy Example:http://doc.scrapy.org/en/latest/intro/examples.html