scrapy项目创建

安装

使用cmd控制台查看scrapy是否安装,没有就安装完再查看。

>conda list
>conda install scrapy
>conda list

创建项目

使用window powershell控制台,先跳转到pycharm项目地址,然后创建项目hello。
创建完成后进入hello目录确定项目主题为dingdian,完成项目创建。

>cd d:
>cd D:\py-workplace
>scrapy startproject hello
>cd hello
>scrapy genspider dingdian wwwwww

打开pycharm,看到项目hello打开。
在这里插入图片描述

使用项目

安装

在pycharm的控制台也需要安装scrapy

>pip install scrapy

会有安装提示

Installing collected packages: zope.interface, w3lib, twisted-iocpsupport,
pyasn1, lxml, incremental, hyperlink, hyperframe, hpack, cssselect, 
constantly, Automat, Twisted, pyasn1-modules, priority, parsel, jmespath,
itemadapter, h2, service-identity, queuelib, PyDispatcher, protego,
itemloaders, scrapy

原理

爬虫文件在如图dingdian.py文件书写,items.py用于临时存储,middlewares.py中间件,pipelines.py下载管道,settings.py配置文件。
在这里插入图片描述
取自Scrapy工作原理
在这里插入图片描述
Scrapy Engine:Scrapy引擎
Scheduler:调度器
Downloader:下载器
Spider:爬虫
Item Pipeline:存储数据临时点+管道
Downloader Middlewares:下载中间件
Spider Middlewares:爬虫中间件

Spider爬虫url -> Scrapy引擎 -> Scheduler安排任务request -> Scrapy引擎 -> Downloader Middlewares增加header的cookie等 -> Downloader下载返回response ->Downloader Middlewares判断数据是否有效 -> Scrapy引擎 -> Spider分析数据 -> Scrapy引擎 -&g

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值