目录
一、概述
Scrapy 是一个为了抓取网页数据、提取结构性数据而编写的应用框架,该框架是封装的,包含 request (异步调度和处理)、下载器(多线程的 Downloader)、解析器(selector)和 twisted(异步处理)等。对于网站的内容爬取,其速度非常快捷。
二、Scrapy五大基本构成:
Scrapy框架主要由五大组件组成,它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫(Spider)和实体管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)。下面我们分别介绍各个组件的作用。
三、整体架构图
四、Scrapy安装以及生成项目
scrapy startproject 项目名 scrapy genspider 爬虫名 域名 scrapy crawl 爬虫名
打开一个终端输入(建议放到合适的路径下,默认是C盘)
1.scrapy startproject TXmovies
2.cd TXmovies
3.scrapygenspidertxmsv.qq.com
Scrapy安装
C:\WINDOWS\system32>python -m pip install --upgrade pip
C:\WINDOWS\system32>pip install wheel
C:\WINDOWS\system32>pip install lxml
C:\WINDOWS\system32>pip install twisted
C:\WINDOWS\system32>pip install pywin32
C:\WINDOWS\system32>pip install scrapy
创建后目录大致页如下
Proje