【spider】之 Scrapy初次体验

最新推荐文章于 2024-08-05 20:06:05 发布

DV2

最新推荐文章于 2024-08-05 20:06:05 发布

阅读量1.5k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Team77/article/details/50699900

版权

基本结构：
scrapy.cfg
tutorial:
　　 settings.py
　　 pipelines.py
　　 spiders/
　　　　 demz_spider.py
　　 items.py

上图是基本的结构
- scrapy.cfg：存储项目信息，表示这个tutorial是一个scrapy项目
- settings.py:全局配置文件
- pipelines.py:管道，负责过滤等操作
- spiders/：爬虫文件夹，这个允许存在多个爬虫，具体负责执行request需要爬的网址进行页面抓取并且返回response，最终和items进行相互抓取映射
- items.py：字典表，类似ORM类，负责保存需要抓取的字段

运行并保存数据到本地
scrapy crawl dmoz -o items.json

——————
命令行工具：
在项目中创建一个新的爬虫：

scrapy genspider mydomain mydomain.com

全局命令（在system shell执行）
- startproject：创建一个项目
- settings
- runspider
- shell
- fetch
- view
- version
项目命令（必须在具体项目中进行执行）
- crawl：启动爬虫开始抓取
  - 语法: scrapy crawl <爬虫名称>
- check：项目检查
  - 语法：scrapy check [-l] <爬虫名称>
- list：列出项目中可用的爬虫
  - 语法：scrapy list
- edit：编辑spider，没啥卵用
- parse
- genspider：在当前项目中创建爬虫
  - 语法：scrapy genspider [-t 模板名称]
    shell $ scrapy genspider -l Available templates: basic：基本模板 crawl csvfeed xmlfeed
- deploy
- bench

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。