Scrapy 简单学习

1:认识Scrapy目录结构

使用Scrapy 创立一个爬虫项目,会生成一个文件夹,文件夹内包含一个同名文件夹和一个scapy.cfg的文件
同名子文件夹为项目的核心代码 scrapy.cfg 主要为爬虫项目的配置文件
在这里插入图片描述
同名子文件夹内放了spider文件夹以及_init_.py items.py middklewares.py pipelines.py settings.py在这里插入图片描述
init.py : 为项目初始化文件,写项目的一些初始化信息
items.py :为项目的数据容器文件,主要用来定义我们要获取的数据
pipelines.py :文件为爬虫项目的管道文件,主要用来对items里面定义的一些数据进行进一步加工与处理
setting.py: 爬虫项目的设置文件,主要为爬虫项目的设置信息

2 :用Scrapy进行爬虫项目管理

1.1:用**“scrapy startproject 项目名”** 来创建一个项目
在这里插入图片描述

  1. 2:用命令scrapy startproject -h 调出 startproject 的帮助信息
    在这里插入图片描述
    我们可以对这些参数进行分析
    –logfile = FILE 参数主要用来指定日志文件,其中的FILE为指定的日志文件的路径地址
    创建日志 :scrapy startproject --logfile=“logf.log” mypjt1
    在这里插入图片描述
    对应目录下生成的日志文件:
    在这里插入图片描述
    我们已经成功将日志信息写入对应文件
    –loglevel = LEVEL ,参数主要来控制日志信息的等级,默认为DEBUG
    日志等级
    在这里插入图片描述
    在这里插入图片描述
    通过–nolog参数控制不输出日志信息
    在这里插入图片描述
    1.3 常用工具命令
    1.3.1 :全局命令
    我们可有利用scrapy -h 进行查看
    在这里插入图片描述
    1 fetch 命令 :主要用来显示爬虫爬取的过程
    在这里插入图片描述
    在这里插入图片描述
    我们可以调用 scrapy fetch -h 查看对参数的控制使用
    在这里插入图片描述
    在这里插入图片描述
    2 :runspider 命令
    我们可以实现不依托scrapy的爬虫项目,直接运行一个爬虫文件
    3:setting 命令
    通过Scrapy中的Setting 查看Scrapy对应的配置信息
    4:shell 命令
    5:startproject 命令
    6 :version 命令
    7:view 命令
    1.3.2 :项目命令
    (1)bench 命令 :测试本地硬件的性能
    (2)check 命令 :使用contract对爬虫进行测试
    (3)crawl 命令 : 启动某个爬虫
    (4) edit 命令:对爬虫文件进行编辑
    (5)genspider 命令: 快速创建爬虫文件的方式
    (6)list 命令 :列出爬虫文件
    (7)parse 命令:对指定URL网址,进行处理和分析
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值