python scrapy详细解析文档

Scrapy爬虫项目

  1. Cmd命令行创建项目

创建项目命令:

scrapy startproject [项目名]

 

Items定义要爬取的东西;spiders文件夹下可以放多个爬虫文件;pipelines爬虫后处理的文件,例如爬取的信息要写入数据库;settings项目设置

       2.Scrapy常用模板

Scrapy-般通过指令管理爬虫项目,常用的指令有:

  1. startproject创建爬虫项目
  2. genspider -I查看爬虫模板
  3. genspider -t模版爬虫文件名域名创建爬虫
  4. crawl运行爬虫
  5. list查看有哪些爬虫

basic基础模板(最常用);crawl通用爬虫模板;csvfeed爬取csv格式的模板;xmlfeed爬取xml格式的模板

     

(1)查看爬虫模板命令

scrapy genspider -l

 

basic基础模板(最常用);crawl通用爬虫模板;csvfeed爬取csv格式的模板;xmlfeed爬取xml格式的模板

(2)创建爬虫命令

scrapy genspider -t [爬虫模板] [爬虫文件名] [爬取网址的域名]

 

   2.Scrapy爬虫编写基础

编写一个Scrapy爬虫项目,一般按照如下流程进行:

  1. 创建爬虫项目
  2. 编写items
  3. 创建爬虫文件
  4. 编写爬虫文件
  5. 编写pipelines
  6. 配置settings

 

    4.使用scrapy编写阿里文学数据

第一步:定义目标

在items中定义目标

第二步:完善爬虫文件的编写

yield这里转交给pipelines文件处理

纠正一下:图中第①点我的目录应该是ali_first

(运行之后报错才发现,这个笔记是边做项目边写的,懒得重新截图编辑了)

第三步:开启pipelines

修改settings文件

 

第四步:完善pipelines文件内容

具体还有其它的爬虫需要的可以留言邮箱

 

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值