scrapy项目入门指南

Scrapy简介

一种纯python实现的,基于twisted异步爬虫处理框架。优点

基本组件概念

Scrapy主要包含5大核心组件

  1. 引擎(scrapy)
  2. 调度器(Scheduler)
  3. 下载器(Downloader)
  4. 爬虫(Spiders)
  5. 项目管道(Pipeline)

项目实践

开发环境: win10 + python3.6 + scrapy2.4.1

1、项目创建

首先进入CMD命令窗口,输入如下命令:

scrapy startproject xxxx  #xxxx代表你要创建的项目名

执行命令后会生成相应的项目文件,如下所示:
在这里插入图片描述
各文件结构作用说明:

  1. spiders目录: 负责存放继承自scrapy的爬虫类。里面主要是用于分析response并提取返回的item或者是下一个URL信息,每个Spider负责处理特定的网站或一些网站。
  2. _init_.py: 项目的初始化文件。
  3. items.py: 负责数据模型的建立,类似于实体类。定义我们所要爬取的信息的相关属性。Item对象是种容器,用来保存获取到的数据。
  4. middlewares.py: 自己定义的中间件。可以定义相关的方法,用以处理蜘蛛的响应输入和请求输出。
  5. pipelines.py: 负责对spider返回数据的处理。在item被Spider收集之后,就会将数据放入到item pipelines中,在这个组件是一个独立的类,他们接收到item并通过它执行一些行为,同时也会决定item是否能留在pipeline,或者被丢弃。
  6. settings.py: 负责对整个爬虫的配置。提供了scrapy组件的方法,通过在此文件中的设置可以控制包括核心、插件、pipeline以及Spider组件。常见配置参数
  7. scrapy.cfg: scrapy基础配置,scrapy项目如何通过scrapy.cfg切换配置文件
2.在item.py文件中定义实体数据

如:

# Define here the models for your scraped items
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值