-
顺序下载如下包: 右键 file --> settings --> Project:Spider --> Python Interpreter
wheel、lxml、Twisted、requests、selenium、scrapy
-
Scrapy常用命令
创建爬虫项目 —— scrapy startproject 项目名
创建爬虫文件 —— scrapy genspider 爬虫名 域名
运行爬虫 —— scrapy crawl 爬虫名
例:
-
scrapy项目结构
Gushi # 项目文件夹
├── Gushi # 项目目录
│ ├── items.py # 定义数据结构 bean
│ ├── middlewares.py # 中间件
│ ├── pipelines.py # 数据处理 save 数据清洗
│ ├── settings.py # 全局配置
│ └── spiders
│ ├── shici.py # 爬虫文件
└── scrapy.cfg # 项目基本配置文件
-
scrapy五大框架
引擎 (Engine) —— 整个框架核心
调度器 (Scheduler)—— 维护请求队列
下载器 (Downloader) —— 获取响应对象
爬虫文件 (Spider) —— 数据解析
项目管道 (pipeline) —— 数据入库
pycharm中安装scrapy
最新推荐文章于 2024-04-15 22:48:05 发布
本文介绍了如何在PyCharm中安装Scrapy爬虫框架,详细步骤包括通过设置Python Interpreter来顺序安装相关依赖包。同时,文章提到了Scrapy的常用命令,如创建项目、爬虫文件及运行爬虫,并展示了Scrapy项目的典型文件结构。此外,还概述了Scrapy的五大组件:引擎、调度器、下载器、爬虫文件和项目管道,以及它们各自的功能。
摘要由CSDN通过智能技术生成