【spider】之 Scrapy初次体验

最新推荐文章于 2023-11-06 21:46:34 发布

DV2

最新推荐文章于 2023-11-06 21:46:34 发布

阅读量1.4k

点赞数

本文链接：https://blog.csdn.net/team77/article/details/50699900

版权

基本结构：
scrapy.cfg
tutorial:
　　 settings.py
　　 pipelines.py
　　 spiders/
　　　　 demz_spider.py
　　 items.py

上图是基本的结构
- scrapy.cfg：存储项目信息，表示这个tutorial是一个scrapy项目
- settings.py:全局配置文件
- pipelines.py:管道，负责过滤等操作
- spiders/：爬虫文件夹，这个允许存在多个爬虫，具体负责执行request需要爬的网址进行页面抓取并且返回response，最终和items进行相互抓取映射
- items.py：字典表，类似ORM类，负责保存需要抓取的字段

运行并保存数据到本地
scrapy crawl dmoz -o items.json

——————
命令行工具：
在项目中创建一个新的爬虫：

scrapy genspider mydomain mydomain.com

全局命令（在system shell执行）
- startproject：创建一个项目
- settings
- runspider
- shell
- fetch
- view
- version
项目命令（必须在具体项目中进行执行）
- crawl：启动爬虫开始抓取
  - 语法: scrapy crawl <爬虫名称>
- check：项目检查
  - 语法：scrapy check [-l] <爬虫名称>
- list：列出项目中可用的爬虫
  - 语法：scrapy list
- edit：编辑spider，没啥卵用
- parse
- genspider：在当前项目中创建爬虫
  - 语法：scrapy genspider [-t 模板名称]
    shell $ scrapy genspider -l Available templates: basic：基本模板 crawl csvfeed xmlfeed
- deploy
- bench

DV2

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【spider】之 Scrapy初次体验

基本结构： scrapy.cfg tutorial: 　　 settings.py 　　 pipelines.py 　　 spiders/ 　　　　 demz_spider.py 　　 items.py上图是基本的结构 - scrapy.cfg：存储项目信息，表示这个tutorial是一个scrapy项目 - settings.py:全局配置文件 - pipelines.p
复制链接

扫一扫