pycharm中安装scrapy

最新推荐文章于 2022-04-07 19:21:18 发布

原创

最新推荐文章于 2022-04-07 19:21:18 发布 · 796 阅读

6 ·

CC 4.0 BY-SA版权

本文介绍了如何在PyCharm中安装Scrapy爬虫框架，详细步骤包括通过设置Python Interpreter来顺序安装相关依赖包。同时，文章提到了Scrapy的常用命令，如创建项目、爬虫文件及运行爬虫，并展示了Scrapy项目的典型文件结构。此外，还概述了Scrapy的五大组件：引擎、调度器、下载器、爬虫文件和项目管道，以及它们各自的功能。

顺序下载如下包: 右键 file --> settings --> Project:Spider --> Python Interpreter
wheel、lxml、Twisted、requests、selenium、scrapy
Scrapy常用命令
创建爬虫项目 —— scrapy startproject 项目名
创建爬虫文件 —— scrapy genspider 爬虫名域名
运行爬虫 —— scrapy crawl 爬虫名
例：
scrapy项目结构
Gushi # 项目文件夹
├── Gushi # 项目目录
│ ├── items.py # 定义数据结构 bean
│ ├── middlewares.py # 中间件
│ ├── pipelines.py # 数据处理 save 数据清洗
│ ├── settings.py # 全局配置
│ └── spiders
│ ├── shici.py # 爬虫文件
└── scrapy.cfg # 项目基本配置文件
scrapy五大框架
引擎 (Engine) —— 整个框架核心
调度器（Scheduler）—— 维护请求队列
下载器（Downloader） —— 获取响应对象
爬虫文件 (Spider) —— 数据解析
项目管道 (pipeline) —— 数据入库