Scrapy框架的学习

最新推荐文章于 2023-07-14 17:00:00 发布

不会python的小文

最新推荐文章于 2023-07-14 17:00:00 发布

阅读量182

点赞数 1

文章标签：爬虫 python pycharm

本文链接：https://blog.csdn.net/Windy_sw/article/details/121313639

版权

Scrapy是一个高效的Python爬虫框架，它包含了引擎、调度器、爬虫、下载器等组件，简化了网络请求、数据解析和存储的过程。本文介绍了Scrapy的安装、架构以及如何创建和运行项目，包括普通Spider和CrawlSpider的使用，以及中间件和Pipeline的配置。同时，讲解了如何在Scrapy中结合selenium和使用IP代理进行更复杂的爬取任务。

摘要由CSDN通过智能技术生成

目标：

1. 理解 Scrapy 架构。

2.学会 Spider 爬虫的编写.

3.学会 CrawlSpider 爬虫编写

4.学会中间件的编写

5.学会 pipeline 保存数据

6.学会将 Scrapy 结合 selenium 一起使用

7.学会在 Scrapy 中使用 IP 代理

Scrapy框架介绍：

写一个爬虫，需要做很多的事情。比如：发送网络请求、数据解析、数据存储、反反爬虫机制（更换ip代理、设置请求头等）、异步请求等。这些工作如果每次都要自己从零开始写的话，比较浪费时间。因此Scrapy把一些基础的东西封装好了，在他上面写爬虫可以变的更加的高效（爬取效率和开发效率）。因此真正在公司里，一些上了量的爬虫，都是使用Scrapy框架来解决。

安装Scrapy框架：

1. 安装：通过 pip install scrapy 即可安装。

2. Scrapy 官方文档： http://doc.scrapy.org/en/latest

3. Scrapy 中文文档： http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html

Scrapy框架架构：

1. Scrapy Engine （引擎）： Scrapy 框架的核心部分。负责在 Spider 和 ItemPipeline 、 Downloader 、 Scheduler 中间通信、传递数据等。

2. Spider （爬虫）：发送需要爬取的链接给引擎，最后引擎把其他模块请求回来的数据再发送给爬虫，爬虫就去解析想要的数据。这个部分是我们开发者自己写的，因为要爬取哪些链接，页面中的哪些数据是需要的，都是由程序员自己决定。

3. Scheduler （调度器）：负责接收引擎发送过来的请求，并按照一定的方式进行排列和整理，负责调度请求的顺序等。

4. Downloader （下载器）：负责接收引擎传过来的下载请求，然后去网络上下载对应的数据再交还给引擎。

5. Item Pipeline （管道）：负责将 Spider （爬虫）传递过来的数据进行保存。具体保存在哪里，应该看开发者自己的需求。

6. Downloader Middlewares （下载中间件）：可以扩展下载器和引擎之间通信功能的中间件。

7. Spider Middlewares （ Spider 中间件）：可以扩展引擎和爬虫之间通信功能的中间件。

scrapy框架入门：

创建项目：

要使用Scrapy框架创建项目，需要通过命令来创建。首先进入到你想把这个项目存放的目录。然后使用以下命令创建：

scrapy startproject [项目名称]

创建爬虫：

scrapy genspider [爬虫名称] [爬虫作用的域名]

目录结构介绍：

items.py：用来存放爬虫爬取下来数据的模型。

middlewares.py：用来存放各种中间件的文件。

pipelines.py：用来将items的模型存储到本地磁盘中。

settings.py：本爬虫的一些配置信息（比如请求头、多久发送一次请求、ip代理池等）。

scrapy.cfg：项目的配置文件。

spiders包：以后所有的爬虫，都是存放到这个里面。

修改settings代码：

LOG_LEVEL = "INFO" #只显示需要的信息
LOG_FILE = "xxx.log"  #把日志信息存到log里
USER_AGENT = 'Mozilla/5.0' 设置user_agent
FEED_EXPORT_ENCODING='utf-8' 设置默认编码方式
ROBOTSTXT_OBEY = False  不遵守协议

运行scrapy项目：

需要在终端，进入项目所在的路径，然后scrapy crawl [爬虫名字]即可运行指定的爬虫。如果不想每次都在命令行中运行，那么可以把这个命令写在一个文件中。以后就在pycharm中执行运行这个文件就可以了。比如现在新创建一个文件叫做start.py，然后在这个文件中填入以下代码：

from scrapy import cmdline

cmdline.execute("scrapy crawl xxx".split())

CrawlSpider爬虫：

之前使用普通的Spider，我们是自己在解析完整个页面后获取下一页的url，然后重新发送一个请求。有时候我们想要这样做，只要满足某个条件的url，都给我进行爬取。那么这时候我们就可以通过CrawlSpider来帮我们完成了。CrawlSpider继承自Spider，只不过是在之前的基础之上增加了新的功能，可以定义爬取的url的规则，以后scrapy碰到满足条件的url都进行爬取，而不用手动的yield Request。