Scrapy框架

最新推荐文章于 2024-04-15 12:00:00 发布

华宇不怀疑

最新推荐文章于 2024-04-15 12:00:00 发布

阅读量987

点赞数

文章标签：爬虫 python

本文链接：https://blog.csdn.net/m0_60704770/article/details/123939294

版权

一、概述

Scrapy 是一个为了抓取网页数据、提取结构性数据而编写的应用框架，该框架是封装的，包含 request （异步调度和处理）、下载器（多线程的 Downloader）、解析器（selector）和 twisted（异步处理）等。对于网站的内容爬取，其速度非常快捷。

二、Scrapy五大基本构成:

Scrapy框架主要由五大组件组成，它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫（Spider）和实体管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)。下面我们分别介绍各个组件的作用。

三、整体架构图

四、Scrapy安装以及生成项目

scrapy startproject 项目名 scrapy genspider 爬虫名域名 scrapy crawl 爬虫名

打开一个终端输入（建议放到合适的路径下，默认是C盘）

1.scrapy startproject TXmovies

2.cd TXmovies

3.scrapygenspidertxmsv.qq.com

Scrapy安装

C:\WINDOWS\system32>python -m pip install --upgrade pip

C:\WINDOWS\system32>pip install wheel

C:\WINDOWS\system32>pip install lxml

C:\WINDOWS\system32>pip install twisted

C:\WINDOWS\system32>pip install pywin32

C:\WINDOWS\system32>pip install scrapy

创建后目录大致页如下

Proje

最低0.47元/天解锁文章

华宇不怀疑

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Scrapy框架

一、Scrapy概述Scrapy 是一个为了抓取网页数据、提取结构性数据而编写的应用框架，该框架是封装的，包含 request （异步调度和处理）、下载器（多线程的 Downloader）、解析器（selector）和 twisted（异步处理）等。对于网站的内容爬取，其速度非常快捷。二、Scrapy五大基本构成:Scrapy框架主要由五大组件组成，它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫（Spider）和实体管道(Item Pipeline)、...
复制链接

扫一扫