Scrapy框架安装以及应用教程（代码实例）

最新推荐文章于 2024-03-05 18:15:56 发布

Quest_sec

最新推荐文章于 2024-03-05 18:15:56 发布

阅读量391

点赞数

分类专栏： Python与爬虫文章标签： python anaconda pip

本文链接：https://blog.csdn.net/Quest_sec/article/details/105093617

版权

本文详细介绍了在Win10环境下安装Scrapy的两种方法，包括使用Anaconda和pip。接着，通过创建并运行一个简单的爬虫项目，阐述了Scrapy的四个基本步骤：新建项目、定义Item、编写爬虫和Item Pipeline。文章还讨论了在编写爬虫过程中可能遇到的问题，如路径设置和Item文件找不到。最后，提到了Scrapy的三个基本命令以及应对反爬虫的策略。

摘要由CSDN通过智能技术生成

Scrapy中文文档

文章目录

一、win10安装Scrapy

（1）有两种办法，一是用Anaconda安装，进入命令行，输入

conda install scrapy

为什么会这么简单呢？因为Anaconda已经安装好Scrapy 所需要的依赖库了。
等待安装进度完成后，界面如下：
在这里插入图片描述
（2）二是用pip安装，pip无法直接安装scrapy框架，需要先安装很多依赖库，自行。

二、检测是否安装成功

在这里插入图片描述

三、Scrapy框架介绍

在这里插入图片描述

制作Scrapy爬虫只需4步：
（1）新建项目
（2）新建爬虫：
（2-1）编写 Items.py：明确你要抓取的目标
（2-2）制作爬虫.py：编写爬虫文件
（2-3）存储内容 pipelines.py：设计管道存储爬取内容

注明出处：Scrapy框架基础讲解及教程 - https://blog.csdn.net/qq_41500222/article/details/82850582

四、编写第一个爬虫

1、创建一个工程

按住shift-右键-在此处打开命令窗口，输入scrapy startproject +工程名
在这里插入图片描述
创建成功，打开文件夹目录如下：

.
├── 工程名
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
└── scrapy.cfg

在这里插入图片描述

解释文件：

spiders：放置 spider 代码的目录文件 spiders（用于编写爬虫）

items.py：用于保存所抓取的数据的容器，其存储方式类似于 Python 的字典

middlewares.py：下载中间件，提供一种简便的机制，当做一个自定义扩展下载功能的组件。

pipelines.py：核心处理器，定义Item Pipeline的实现，实现数据的清洗，储存，验证。

settings.py：设置文件

scrapy.cfg：配置文件

自主设置：
在这里插入图片描述

2、定义Item

item是保存爬取数据的容器，类似字典。首先根据需要从quotes.toscrape获取到的数据对item进行建模：

编辑 tutorial 目录中的 items.py 文件，在item中定义我们想要抓取的字段，如下

import scrapyclass QuoteItem(scrapy.Item):    
# define the fields for your item here like:    
name

最低0.47元/天解锁文章

Quest_sec

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录