Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
一、安装环境
系统:centos7
python:python3.6
之前已经安装过python3,并且保留了原来的python2.7版本,修改了软链接
二、安装
1. 安装开发工具包
yum -y groupinstall "Development tools"
2.安装scrapy所需要的开发包
yum install -y python-devel openssl-devel libxslt-devel libxml2-devel
3.安装pip
yum -y install python-pip
4.安装scrapy
pip install scrapy
5. 创建scrapy软链接
ln -s /usr/local/python3/bin/scrapy /usr/bin/scrapy
安装完成