Scrapy学习笔记III-Command line tool_scrapy里的allowed domain-CSDN博客

本文链接：https://blog.csdn.net/qq_30717683/article/details/69274470

scrapy startproject myproject [project_dir]

scrapy genspider mydomain mydomain.com #创建一个新的spider

scrapy <”command“> -h #查看所有可用指令

global commands：

    startproject  #创建一个新的项目
    # scrapy startproject myproject
    genspider     #在项目里创建一个新的spider
    # scrapy genspider [-t template] <name> <domain> 
    #scrapy genspider -t crawl scrapyorg scrapy.org ，加入domain后，会在代码里产生allowed_domains
    settings       # scrapy 中设置内容
    runspider      #运行一个spider脚本 此时并未创建项目 
    shell          #shell命令，分析Response
    fetch          #spider通过下载器下载URL内容，并输出，如果定义user_agent并默认使用user_agent中的内容，
    #scrapy fetch <url>          
    view           # 在浏览器里打开
    version

Project-only commands:   #需要切换到项目所在目录

    crawl
    # scrapy crawl <spider>  运行爬虫
    check     # 检查程序的运行情况，通过contract checks（求翻译）
    list      # 列出所有的spider
    edit      #编辑spider
    parse     #抓取URL，并提取所需的数据
    bench     #进行一个快速检测 程序是否有问题

保存数据指令
scrapy crawl spider -o spider.json