Scrapy学习

scrapy入门

1.scrapy简介

Scrapy是一个基于Twisted的异步处理框架,是纯python实现的爬虫框架。使用少量代码就能快速抓取数据。
Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

2.Scrapy框架及功能

2.1 框架图

在这里插入图片描述

2.2 各部分功能

名称功能
Scrapy Engine(Scrapy引擎)Scrapy引擎是框架的核心,负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等
Spiders(爬虫)负责处理引擎发来的所有Response,从中提取数据,提取URl,并提交给引擎
Scheduler(调度器)负责接受引擎发送过来的Request请求
Downloader(下载器)负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理。
Item Pipeline(项目管道)负责引擎传来的数据,并进行后期处理(数据分析,数据存储等)

3.Scrapy安装

3.1安装命令

windows下:

	pip install Scrapy

在这里插入图片描述
检测是否安装成功:
在这里插入图片描述

scrapy startProject 项目名

在这里插入图片描述
在这里插入图片描述
You can start your first spider with:
第一步: cd myspider
第二步:scrapy genspider example(爬虫名) example.com(你要爬取的网站)

在这里插入图片描述
网站用xxxx代替
在这里插入图片描述
编写完代码后:执行爬虫

scrapy crawl 爬虫名

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值