【spider】之 Scrapy初次体验

基本结构:
scrapy.cfg
tutorial:
   settings.py
   pipelines.py
   spiders/
       demz_spider.py
   items.py

上图是基本的结构
- scrapy.cfg:存储项目信息,表示这个tutorial是一个scrapy项目
- settings.py:全局配置文件
- pipelines.py:管道,负责过滤等操作
- spiders/:爬虫文件夹,这个允许存在多个爬虫,具体负责执行request需要爬的网址进行页面抓取并且返回response,最终和items进行相互抓取映射
- items.py:字典表,类似ORM类,负责保存需要抓取的字段

  • 运行并保存数据到本地
    scrapy crawl dmoz -o items.json

——————
命令行工具:
在项目中创建一个新的爬虫:

scrapy genspider mydomain mydomain.com
  • 全局命令(在system shell执行)
    • startproject:创建一个项目
    • settings
    • runspider
    • shell
    • fetch
    • view
    • version
  • 项目命令(必须在具体项目中进行执行)
    • crawl:启动爬虫开始抓取
      • 语法: scrapy crawl <爬虫名称>
    • check:项目检查
      • 语法:scrapy check [-l] <爬虫名称>
    • list:列出项目中可用的爬虫
      • 语法:scrapy list
    • edit:编辑spider,没啥卵用
    • parse
    • genspider:在当前项目中创建爬虫
      • 语法:scrapy genspider [-t 模板名称]
        shell
        $ scrapy genspider -l
        Available templates:
        basic:基本模板
        crawl
        csvfeed
        xmlfeed
    • deploy
    • bench
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值