scrapy简介

最新推荐文章于 2024-08-05 20:06:05 发布

langezuibang

最新推荐文章于 2024-08-05 20:06:05 发布

阅读量2.8k

点赞数 1

分类专栏： python的学习爬虫学习笔记文章标签： python 爬虫

本文链接：https://blog.csdn.net/langezuibang/article/details/115530491

版权

python的学习同时被 3 个专栏收录

29 篇文章 3 订阅

订阅专栏

学习笔记

14 篇文章 0 订阅

订阅专栏

爬虫

6 篇文章 0 订阅

订阅专栏

·什么是scrapy框架？
scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其是一个半成品，能帮用户实现专业网络爬虫。

安装：pip install scrapy

在这里插入图片描述 实现流程：
1、Engine从Spider处获得爬取请求（request）
2、Engine将爬取请求转发给SCHEDULER,用于调试
3、Engine从SCHEDULER处获得下一个要爬取请求
4、Engine从爬取请求通过中间件发送给DOWNLOADER
5、爬取网面后，DOWNLOADER形成响应（response)通过中间件发给engine
6、Engine将收到的响应通过中间件发送给spider处理
7、Spider处理响应后产生爬取项（scraped item）和新的爬取请求给engine
8、engine将爬取项发送给ITEM PIPELINE
9、Engine 将爬取请求发送给SCHEDULER

-Engine引擎作用：

1）控制所有模块间的数据流
2）根据条件触发事件

-downloader下载器: 根据请求下载网页
-scheduler调度器: 对所有爬取请求进行调度管理

（用户可编写配置代码）
-downloader middleware:目的：实施engine、scheduler、downloader之间进行用户可配置控制。
功能：修改、丢弃、新增请求响应。

-spider爬虫(需用户编写)

1)解析downloader返回的响应(response)
2)产生爬取项（scraped item）
3)产生额外的爬取请求（request）

-Item Pipelines管道(需用户编写)

1)以流水线方式处理spider产生的爬取项
2)由一组操作顺序组成，类似流水线，每个操作是一个item pipeline类型
3)可能操作包括：清理、检验和查重爬取项中的HTML数据、将数据存储到数据库

-spider middleware(用户可编写)

目的：对请求和爬取项的再处理
功能：修改、丢弃、新增请求或爬取项

在这里插入图片描述 选择哪个技术开发路线？
·小需求:request库
·大需求：scrapy框架
·定制程序很高的需求：自搭框架，requests > scrapy

在这里插入图片描述下面开始实操：嘻嘻~~~

建立scrapy爬虫项目流程

(可在cmd和pycharm的终端（terminal）上执行)
·创建项目：scrapy startproject myfirst
·进入工程：cd myfirst
·创建爬虫文件：scrapy genspider spidername www.xxx.com
·编写相关操作代码
·执行工程：scrapy crawl spidername
在这里插入图片描述看看出来哪些文件：
生成一个demo的爬虫，会看到 spider文件下多了一个demo.py文件。
在demo.py中执行如下代码：

import scrapy
class DemoSpider(scrapy.Spider):
    name = 'demo'
    #allowed_domains = ['python123.io']
    start_urls = ['http://python123.io/ws/demo.html']

    def parse(self, response):
        fname = response.url.split('/')[-1]
        with open(fname,'wb') as f:
            f.write(response.body)
        self.log('Saved file %s.' % fname)

在终端输入：

>scrapy crawl demo

将得到一个demo.html文件。
在这里插入图片描述
嘻嘻，一个小小的爬虫用scrapy框架实现的。
加油，每天进步一点点。

langezuibang

关注

1
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
scrapy简介

·什么是scrapy框架？scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其是一个半成品，能帮用户实现专业网络爬虫。安装：pip install scrapy实现流程：1、Engine从Spider处获得爬取请求（request）2、Engine将爬取请求转发给SCHEDULER,用于调试3、Engine从SCHEDULER处获得下一个要爬取请求4、Engine从爬取请求通过中间件发送给DOWNLOADER5、
复制链接

扫一扫

专栏目录