前言
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。Scrapy 使用了 Twisted异步网络库来处理网络通讯,其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
安装步骤
直接使用 pip install scrapy 命令是无法安装成功的,需要分以下步骤进行安装。
安装python环境
pkg install clang python python-dev
安装lxml模块
pkg install libxml2 libxml2-dev libxslt libxslt-dev
pip install lxml
安装openssl模块
pkg install openssl openssl-dev openssl-tool
注:openssl-tool可以不用安装,如果在安装scrapy时提示openssl相关错误可以安装openssl-tool看是否能解决该错误。
安装libffi模块
pkg install libffi libffi-dev
安装Scrapy
pip install scrapy