01_体系结构与环境搭建

在这里插入图片描述


博文配套视频课程:24小时实现从零到AI人工智能


Scrapy简介

一个快速、高层次的屏幕抓取和web抓取的Python框架,用于抓取web站点并从页面中提取结构化的数据,可以用于数据挖掘、监测和自动化测试,可根据具体需求个性化定制。Scrapy架构图:

在这里插入图片描述

Scrapy组件介绍

  1. Scrapy Engine(引擎):用来处理整个系统的数据传递,是整个系统的核心部分。
  2. Scheduler(调度器):用来接受引擎发过来的Request请求, 压入队列中, 并在引擎再次请求的时候返回。
  3. Downloader(下载器):用于引擎发过来的Request请求对应的网页内容, 并将获取到的Responses返回给Spider。
  4. Item Pipeline(管道):负责处理Spider中获取的实体,对数据进行清洗,保存所需的数据。 Downloader
  5. Middlewares(下载器中间件):主要用于处理Scrapy引擎与下载器之间的请求及响应。
  6. SpiderMiddlewares(爬虫中间件):主要用于处理Spider的Responses和Requests

pip安装scrapy

正常通过pip show scrapy方式来查看是否安装,如果已安装则会显示安装信息,否则不会显示任何信息

C:\Users\Administrator>pip show scrapy
Name: Scrapy
Version: 1.7.3
Summary: A high-level Web Crawling and Web Scraping framework
Home-page: https://scrapy.org
Author: Scrapy developers
Author-email: None
License: BSD
Location: d:\anaconda3\lib\site-packages
Requires: PyDispatcher, w3lib, cssselect, parsel, queuelib, Twisted, pyOpenSSL, six, service-identity, lxml
Required-by: scrapy-redis

通过pip install scrapy 安装爬虫框架 (大概率会抛出如下异常)

在这里插入图片描述根据异常提示缺少:ERROR: MICROSOFT VISUAL C++ 9.0 IS REQUIRED (UNABLE TO FIND VCVARSALL.BAT). GET IT FROM 需要下载一个缺失的window组件,此组件在视频的学习资料中有提供

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值