Scrapy框架安装以及应用教程（代码实例）

最新推荐文章于 2024-03-05 18:15:56 发布

Quest_sec

最新推荐文章于 2024-03-05 18:15:56 发布

阅读量378

点赞数

分类专栏： Python与爬虫文章标签： python anaconda pip

本文链接：https://blog.csdn.net/quest_sec/article/details/105093617

版权

win10安装Scrapy（1）有两种办法，一是用Anaconda安装，（2）二是用pip安装，pip无法直接安装scrapy框架，需要先安装很多依赖库。应用实例：新建一个项目...

摘要由CSDN通过智能技术生成

（1）有两种办法，一是用Anaconda安装，进入命令行，输入

conda install scrapy

为什么会这么简单呢？因为Anaconda已经安装好Scrapy 所需要的依赖库了。
等待安装进度完成后，界面如下：
在这里插入图片描述
（2）二是用pip安装，pip无法直接安装scrapy框架，需要先安装很多依赖库，自行。

在这里插入图片描述

在这里插入图片描述

制作Scrapy爬虫只需4步：
（1）新建项目
（2）新建爬虫：
（2-1）编写 Items.py：明确你要抓取的目标
（2-2）制作爬虫.py：编写爬虫文件
（2-3）存储内容 pipelines.py：设计管道存储爬取内容

注明出处：Scrapy框架基础讲解及教程 - https://blog.csdn.net/qq_41500222/article/details/82850582

按住shift-右键-在此处打开命令窗口，输入scrapy startproject +工程名
在这里插入图片描述
创建成功，打开文件夹目录如下：

.
├── 工程名
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
└── scrapy.cfg

在这里插入图片描述

解释文件：

spiders：放置 spider 代码的目录文件 spiders（用于编写爬虫）

items.py：用于保存所抓取的数据的容器，其存储方式类似于 Python 的字典

middlewares.py：下载中间件，提供一种简便的机制，当做一个自定义扩展下载功能的组件。

pipelines.py：核心处理器，定义Item Pipeline的实现，实现数据的清洗，储存，验证。

settings.py：设置文件

scrapy.cfg：配置文件

自主设置：
在这里插入图片描述

item是保存爬取数据的容器，类似字典。首先根据需要从quotes.toscrape获取到的数据对item进行建模：

编辑 tutorial 目录中的 items.py 文件，在item中定义我们想要抓取的字段，如下

import scrapyclass QuoteItem(scrapy.Item):    
# define the fields for your item here like:    
name

关注

专栏目录