scrapy项目创建

最新推荐文章于 2024-05-18 10:35:23 发布

活跃之鱼

最新推荐文章于 2024-05-18 10:35:23 发布

阅读量975

点赞数

文章标签： pycharm python ide

本文链接：https://blog.csdn.net/qq_23246143/article/details/119950141

版权

scrapy模块

安装
创建项目
使用项目
- 安装
- 原理
启动
爬取

安装

使用cmd控制台查看scrapy是否安装，没有就安装完再查看。

>conda list
>conda install scrapy
>conda list

创建项目

使用window powershell控制台，先跳转到pycharm项目地址，然后创建项目hello。
创建完成后进入hello目录确定项目主题为dingdian，完成项目创建。

>cd d:
>cd D:\py-workplace
>scrapy startproject hello
>cd hello
>scrapy genspider dingdian wwwwww

打开pycharm，看到项目hello打开。
在这里插入图片描述

使用项目

安装

在pycharm的控制台也需要安装scrapy

>pip install scrapy

会有安装提示

Installing collected packages: zope.interface, w3lib, twisted-iocpsupport,
pyasn1, lxml, incremental, hyperlink, hyperframe, hpack, cssselect, 
constantly, Automat, Twisted, pyasn1-modules, priority, parsel, jmespath,
itemadapter, h2, service-identity, queuelib, PyDispatcher, protego,
itemloaders, scrapy

原理

爬虫文件在如图dingdian.py文件书写，items.py用于临时存储，middlewares.py中间件，pipelines.py下载管道，settings.py配置文件。
在这里插入图片描述
取自Scrapy工作原理

Scrapy Engine：Scrapy引擎
Scheduler：调度器
Downloader：下载器
Spider：爬虫
Item Pipeline：存储数据临时点+管道
Downloader Middlewares：下载中间件
Spider Middlewares：爬虫中间件

Spider爬虫url -> Scrapy引擎 -> Scheduler安排任务request -> Scrapy引擎 -> Downloader Middlewares增加header的cookie等 -> Downloader下载返回response ->Downloader Middlewares判断数据是否有效 -> Scrapy引擎 -> Spider分析数据 -> Scrapy引擎 -&g