初窥Scrapy

最新推荐文章于 2018-09-26 11:12:28 发布

Q41881106

最新推荐文章于 2018-09-26 11:12:28 发布

阅读量257

点赞数

本文链接：https://blog.csdn.net/Q41881106/article/details/80744637

版权

Scrapy

Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。

Scrapy运行流程
1 引擎访问spider，询问需要处理的URL链接，spider收到请求，将需要处理的URL告诉引擎，然后将URL给引擎处理。
2 引擎通知调度器，调度器得到通知将URL排序入队，并加以处理。
3 引擎通知调度器，调度器将处理好的request返回给引擎
4 引擎接收到request后告诉下载器，按照setting中配置的顺序下载这个request的请求
5 下载器收到请求,将下载好后的东西返回给引擎。如果下载失败，下载器会通知引擎，引擎再通知调度器，调度器收到消息后会记录这个下载失败的request。
6 引擎得到下载好的东西后，通知spider（这里responses默认是交给def parse（）函数处理）
7 Spider收到通知后，处理接收的数据
8 Spider处理完数据后返回给引擎两个结果：一个是需要跟进的URL，另一个是获取到的item数据。
9 引擎将接收到的item数据交给管道处理，将需要跟进的URL交给调度器处理。重复循环直到获取完需要的全部信息。

· 引擎(Scrapy)
用来处理整个系统的数据流处理, 触发事务(框架核心)

· 调度器(Scheduler)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

· 下载器(Downloader)
用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)

· 爬虫(Spiders)
爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

· 项目管道(Pipeline)
负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

· 下载器中间件(Downloader Middlewares)
位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。

· 爬虫中间件(Spider Middlewares)
介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。

· 调度中间件(Scheduler Middewares)

介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

我们直接通过Scrapy官方文档给出的例子里测试下我们搭建的环境，在我们工作目录下面直接创建quotes_spider.py文件，然后写入如下代码：

import scrapy
class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/tag/humor/',
    ]
    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').extract_first(),
                'author': quote.xpath('span/small/text()').extract_first(),
            }

        next_page = response.css('li.next a::attr("href")').extract_first()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

通过如下命令操作：

scrapy runspider quotes_spider.py -o quotes.json

可以再quotes.json文件中得到想要的结果：

创建：

scrapy startproject p3

startproject ：创建一个爬虫项目

p3：名字

https://doc.scrapy.org/en/latest/intro/tutorial.html 爬虫网

scrapy crawl s4399

文件说明：

· scrapy.cfg 项目的配置信息，主要为Scrapy命令行工具提供一个基础的配置信息。（真正爬虫相关的配置信息在settings.py文件中）

· items.py 设置数据存储模板，用于结构化数据，如：Django的Model

· pipelines 数据处理行为，如：一般结构化的数据持久化

· settings.py 配置文件，如：递归的层数、并发数，延迟下载等

· spiders 爬虫目录，如：创建文件，编写爬虫规则

注意：一般创建爬虫文件时，以网站域名命名

· 1.爬虫文件需要定义一个类，并继承scrapy.Spider

· 2.必须定义name，即爬虫名，如果没有name，会报错。

· 3.编写函数parse，这里需要注意的是，该函数名不能改变，因为Scrapy源码中默认callback函数的函数名就是parse；

· 4.定义需要爬取的url，放在列表中，因为可以爬取多个url，Scrapy源码是一个For循环，从上到下爬取这些url，使用生成器迭代将url发送给下载器下载url的html

运行

进入p3目录，运行命令：

Scrapy crawl 爬虫名字

在测试一个4399的游戏获取：

import scrapy
class Sipder4399(scrapy.Spider):
    name = "s4399"
     start_urls = [
         'http://www.4399.com/' ,
    ]
     def parse( self , response):
        lis = response.css( "ul.tm_list li" )
         for txt in lis:
             print (txt.css( "a::text" ).extract_first())

运行结果：