01_体系结构与环境搭建

最新推荐文章于 2019-08-18 18:26:42 发布

lsqzedu

最新推荐文章于 2019-08-18 18:26:42 发布

阅读量364

点赞数

分类专栏： Scrapy 爬虫框架

本文链接：https://blog.csdn.net/lsqzedu/article/details/99697174

版权

Scrapy 爬虫框架专栏收录该内容

16 篇文章 12 订阅

订阅专栏

在这里插入图片描述

文章目录

Scrapy简介
Scrapy组件介绍
pip安装scrapy

博文配套视频课程：24小时实现从零到AI人工智能

Scrapy简介

一个快速、高层次的屏幕抓取和web抓取的Python框架，用于抓取web站点并从页面中提取结构化的数据，可以用于数据挖掘、监测和自动化测试，可根据具体需求个性化定制。Scrapy架构图：

在这里插入图片描述

Scrapy组件介绍

Scrapy Engine(引擎)：用来处理整个系统的数据传递，是整个系统的核心部分。
Scheduler(调度器)：用来接受引擎发过来的Request请求, 压入队列中, 并在引擎再次请求的时候返回。
Downloader(下载器)：用于引擎发过来的Request请求对应的网页内容, 并将获取到的Responses返回给Spider。
Item Pipeline(管道):负责处理Spider中获取的实体，对数据进行清洗，保存所需的数据。 Downloader
Middlewares(下载器中间件):主要用于处理Scrapy引擎与下载器之间的请求及响应。
SpiderMiddlewares(爬虫中间件)：主要用于处理Spider的Responses和Requests

pip安装scrapy

正常通过pip show scrapy方式来查看是否安装，如果已安装则会显示安装信息，否则不会显示任何信息

C:\Users\Administrator>pip show scrapy
Name: Scrapy
Version: 1.7.3
Summary: A high-level Web Crawling and Web Scraping framework
Home-page: https://scrapy.org
Author: Scrapy developers
Author-email: None
License: BSD
Location: d:\anaconda3\lib\site-packages
Requires: PyDispatcher, w3lib, cssselect, parsel, queuelib, Twisted, pyOpenSSL, six, service-identity, lxml
Required-by: scrapy-redis

通过pip install scrapy 安装爬虫框架（大概率会抛出如下异常）

在这里插入图片描述根据异常提示缺少：ERROR: MICROSOFT VISUAL C++ 9.0 IS REQUIRED (UNABLE TO FIND VCVARSALL.BAT). GET IT FROM 需要下载一个缺失的window组件，此组件在视频的学习资料中有提供

在这里插入图片描述

lsqzedu

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
01_体系结构与环境搭建

文章目录Scrapy简介Scrapy组件介绍pip安装scrapyScrapy简介一个快速、高层次的屏幕抓取和web抓取的Python框架，用于抓取web站点并从页面中提取结构化的数据，可以用于数据挖掘、监测和自动化测试，可根据具体需求个性化定制。Scrapy架构图：Scrapy组件介绍Scrapy Engine(引擎)：用来处理整个系统的数据传递，是整个系统的核心部分。Sched...
复制链接

扫一扫