2020-07-20

最新推荐文章于 2020-09-03 16:03:49 发布

左瞳^_^

最新推荐文章于 2020-09-03 16:03:49 发布

阅读量79

点赞数 1

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_49353510/article/details/107465825

版权

笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

scrapy很香。
scrapy纯python实现，流行的网络爬虫框架使用高级功能简化网页抓取。
它可以分为如下部分：
scrapy engine:作为引擎触发
scheduler:调度器， Scrapy 引擎打开一个网站，找到处理该网站对应的爬虫，并爬取网页的第一个页面；
Scrapy 引擎从爬虫中获取第一个页面地址，并将其作为请求放进调度器中进行调度； Scrapy 引擎从调度器中获取下一个页面的地址；调度器返回下一个页面的地址给 Scrapy 引擎，Scrapy 引擎通过下载器中间件传递给下载器进行爬取；爬取到数据后，下载器通过下载器中间件回传给 Scrapy 引擎； Scrapy 引擎将爬取到的数据通过爬虫中间件传递给爬虫进行数据解析、提取；爬虫处理完数据后，将提取出的数据和新的请求回传给 Scrapy 引擎； Scrapy 将提取出的数据传给数据管道进行数据清洗等操作，同时将新的请求传递给调度器准备进行下一页的爬取；重复 2-8 步，直到调度器中没有新的请求，数据爬取结束。需要时使用
downloader:下载器，爬取网页内容，将爬取数据返回spider
item pipeline:数据管道，处理数据
download middlewares:下载器中间件
spider middlewares:爬虫中间件
scrapy工作流程：

Scrapy 引擎打开一个网站，找到处理该网站对应的爬虫，并爬取网页的第一个页面；
Scrapy 引擎从爬虫中获取第一个页面地址，并将其作为请求放进调度器中进行调度；
Scrapy 引擎从调度器中获取下一个页面的地址；调度器返回下一个页面的地址给 Scrapy 引擎，Scrapy 引擎通过下载器中间件传递给下载器进行爬取；
爬取到数据后，下载器通过下载器中间件回传给 Scrapy 引擎；
Scrapy 引擎将爬取到的数据通过爬虫中间件传递给爬虫进行数据解析、提取；
爬虫处理完数据后，将提取出的数据和新的请求回传给 Scrapy 引擎；
Scrapy 将提取出的数据传给数据管道进行数据清洗等操作，同时将新的请求传递给调度器准备进行下一页的爬取；
重复 2-8 步，直到调度器中没有新的请求，数据爬取结束。

scrapy安装：cmd命令行中输入pip install scrapy
安装完毕后，命令行输入scrapy并回车，看到一下内容就说明安装成功：
Scrapy 1.7.3 - no active project
Usage: scrapy [options] [args]Available commands: bench
Run quick benchmark test fetch
Fetch a URL using the Scrapy downloader genspider
Generate new spider using pre-defined templates runspider
Run a self-contained spider (without creating a project) settings
Get settings values shell
Interactive scraping console startproject Create new project version
Print Scrapy version view Open URL in browser, as seen by Scrapy [ more ] More commands available when run from project directoryUse “scrapy -h” to see more info about a command
接着在命令行中输入explorer . 注意：explorer前面必须有空格！回车，打开目录，在这个目录里面开始编写代码即可。

左瞳^_^

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2020-07-20

scrapy很香。scrapy纯python实现，流行的网络爬虫框架使用高级功能简化网页抓取。它可以分为如下部分：scrapy engine:作为引擎触发scheduler:调度器， Scrapy 引擎打开一个网站，找到处理该网站对应的爬虫，并爬取网页的第一个页面；Scrapy 引擎从爬虫中获取第一个页面地址，并将其作为请求放进调度器中进行调度； Scrapy 引擎从调度器中获取下一个页面的地址；调度器返回下一个页面的地址给 Scrapy 引擎，Scrapy 引擎通过下载器中间
复制链接

扫一扫