scrapy入门
1.scrapy简介
Scrapy是一个基于Twisted的异步处理框架,是纯python实现的爬虫框架。使用少量代码就能快速抓取数据。
Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
2.Scrapy框架及功能
2.1 框架图
2.2 各部分功能
名称 | 功能 |
---|---|
Scrapy Engine(Scrapy引擎) | Scrapy引擎是框架的核心,负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等 |
Spiders(爬虫) | 负责处理引擎发来的所有Response,从中提取数据,提取URl,并提交给引擎 |
Scheduler(调度器) | 负责接受引擎发送过来的Request请求 |
Downloader(下载器) | 负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理。 |
Item Pipeline(项目管道) | 负责引擎传来的数据,并进行后期处理(数据分析,数据存储等) |
3.Scrapy安装
3.1安装命令
windows下:
pip install Scrapy
检测是否安装成功:
scrapy startProject 项目名
You can start your first spider with:
第一步: cd myspider
第二步:scrapy genspider example(爬虫名) example.com(你要爬取的网站)
网站用xxxx代替
编写完代码后:执行爬虫
scrapy crawl 爬虫名