scrapy爬虫教程（一）--scrapy安装及生成项目

最新推荐文章于 2024-01-25 20:32:52 发布

futianwenA

最新推荐文章于 2024-01-25 20:32:52 发布

阅读量392

点赞数 1

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/futianwenA/article/details/105293997

版权

安装
在终端输入pip install，如果速度太慢指定国内镜像安装pip install -i https://pypi.doubanio.com/simple/ scrapy
创建项目
终端中执行scrapy startproject 项目名称
如scrapy startproject lagouspider
执行命令后生成的项目目录结构如下：
在项目目录中执行生成爬虫模板文件的命令
执行scrapy genspider 爬虫文件名域名
如scrapy genspider lagou www.lagou.com，会在spiders文件夹中生成名为lagou.py的爬虫模板文件，该方式是按默认模板生成爬虫文件，如需按指定模板生成爬虫文件执行scrapy genspider -t 模板爬虫文件名域名，如scrapy genspider -t crawl lagou1 www.lagou.com
默认方式生成爬虫文件如下：
scrapy流程解释

通过上图可以看出，scrapy流程是由spiders构造通过中间件构造request对象，然后通过爬虫引擎交给调度器，下载器再由引擎获取request进行下载，下载器获取到网站数据生成response通过引擎传递给爬虫，在爬虫中通过我们自定义的解析数据代码解析好后生成iterm对象，由iterm对象将数据传递到pipline中进行存储。

关注

专栏目录