python爬虫系列2-------Scrapy目录结构介绍与配置详解

本文详细介绍了Scrapy爬虫项目的目录结构,包括scrapy.cfg配置文件、init.py初始化文件、items.py定义数据结构、pipelines.py处理数据的管道、settings.py核心配置文件以及spiders文件夹中存放的爬虫文件。通过理解这些内容,可以更好地搭建和管理Scrapy爬虫项目。
摘要由CSDN通过智能技术生成

Scrapy目录结构介绍与配置文件详解

    先上架构图,网上找的,不管懂不懂,先有个印象,结合文件目录和解释去看,结合以后的实践,原理一目了然。

这里写图片描述

  • 创建出scrapy项目目录如下
├── mySpider
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── __pycache__
│   ├── settings.py
│   └── spiders
│       ├── __init__.py
│       └── __pycache__
└── scrapy.cfg
  • scrapy.cfg文件
# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.io/en/latest/deploy.html

[settings]
default = mySpider.settings

[deploy]
#url = http://localhost:6800/
project = mySpider
    项目基础设置文件,设置爬虫启用的功能,如并发,管道文件等,需要在基础设置文件设置
  • init.py 文件为python初始化文件
    为python模块初始化文件,可用__all__函数配置导出参数,也可什么都不写,但是必须要有,否则报错
  • items.py 文件
# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class MyspiderItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass
    此文件俗称模型文件,就是存放字段的文件,上面为简单实例,定义字段名称,以自己的任意形式存取数据
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值