scrapy爬虫教程(一)--scrapy安装及生成项目

  1. 安装
    在终端输入pip install,如果速度太慢指定国内镜像安装pip install -i https://pypi.doubanio.com/simple/ scrapy
  2. 创建项目
    终端中执行scrapy startproject 项目名称
    scrapy startproject lagouspider
    执行命令后生成的项目目录结构如下:
    在这里插入图片描述
  3. 在项目目录中执行生成爬虫模板文件的命令
    执行scrapy genspider 爬虫文件名 域名
    scrapy genspider lagou www.lagou.com,会在spiders文件夹中生成名为lagou.py的爬虫模板文件,该方式是按默认模板生成爬虫文件,如需按指定模板生成爬虫文件执行scrapy genspider -t 模板 爬虫文件名 域名,如scrapy genspider -t crawl lagou1 www.lagou.com
    默认方式生成爬虫文件如下:
    在这里插入图片描述
  4. scrapy流程解释
    在这里插入图片描述
    通过上图可以看出,scrapy流程是由spiders构造通过中间件构造request对象,然后通过爬虫引擎交给调度器,下载器再由引擎获取request进行下载,下载器获取到网站数据生成response通过引擎传递给爬虫,在爬虫中通过我们自定义的解析数据代码解析好后生成iterm对象,由iterm对象将数据传递到pipline中进行存储。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值