制作scrapy爬虫文件

制作Scrapy爬虫的基本步骤:

   1.新建项目(scrapy startproject xxx)--新建一个爬虫文件

   项目基本文件包括:     

  • scrapy.cfg: 项目的配置文件
  • tutorial/: 该项目的 python 模块。之后您将在此加入代码。
  • tutorial/items.py: 项目中的 item 文件。
  • tutorial/pipelines.py: 项目中的 pipelines 文件。
  • tutorial/settings.py: 项目的设置文件。
  • tutorial/spiders/: 放置 spider 代码的目录。

   2.明确目标(编写item.py文件):明确需要爬取的目标

   3.制作爬虫(spiders/xxsprders.py)

   4.将爬取的内容进行存储(pipeline.py)

Scrapy---基本结构

   核心、队列、网页下载、内容过滤、管道存储

命令格式:

scrapy <command> [options] [args]

Available commands:
  bench         Run quick benchmark test
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

 

  [ more ]      More commands available when run from project directory

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值