Scrapy爬虫流程

最新推荐文章于 2024-06-28 09:48:33 发布

跃芯

最新推荐文章于 2024-06-28 09:48:33 发布

阅读量250

点赞数 5

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42038565/article/details/105729482

版权

Scrapy 爬虫

- 程序执行
- 制作Scrapy爬虫四步：

在这里插入图片描述

程序执行

引擎：Spider，你要处理哪一个网站？
Spider：老大，我要处理XX.com
引擎：你把第一个需要处理的URL给我吧
Spider：给你，XXXX.com
引擎：调度器，我这里有request请求，帮我排序入队一下
调度器：好的，马上处理
引擎：调度器，把你处理好的request请求给我
调度器：给你，这是我处理好的request请求
引擎：下载器，你按照老大的下载中间件的设置，帮我下载一下这个request请求
下载器：好的，给你，这是下载好的东西，（如果失败，这个request下载失败了，然后引擎告诉调度器，这个请求下载失败了，记录下，等会再下载）
引擎：Spider，这个是下载好的东西，已经按照下载中间件处理过了，你自己处理下（responses默认是交给def parse()这个函数处理）
Spider：（处理完数据之后对于需要跟进的URL）引擎，我这里有两个结果，这个是我需要跟进的URL，还有这个是我获取的item数据
引擎：管道，这有个item需要你帮我处理下，调度器，有个需要跟进的URL帮我处理下，然后从第四步循环，知道获取到全部的信息
管道、调度器：好的，现在就做
只有当调度器中不存在任何request了，整个程序才会停止，也就是说，对于下载失败的URL，Scrapy也会重新下载

制作Scrapy爬虫四步：

新建项目
明确目标（items.py）：明确要抓取的目标
制作爬虫（spider.py）：制作爬虫开始爬取网页
存储内容（pipelines.py）：设计管道存储爬取的内容

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
Scrapy爬虫流程

Scrapy 爬虫程序执行制作Scrapy爬虫四步：程序执行引擎：Spider，你要处理哪一个网站？Spider：老大，我要处理XX.com引擎：你把第一个需要处理的URL给我吧Spider：给你，XXXX.com引擎：调度器，我这里有request请求，帮我排序入队一下调度器：好的，马上处理引擎：调度器，把你处理好的request请求给我调度器：给你，这是我处理好的requ...
复制链接

扫一扫

跃芯 CSDN认证博客专家 CSDN认证企业博客

码龄6年

25: 原创

17万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

421: 积分

56: 粉丝

65: 获赞

5: 评论

92: 收藏

私信

关注

热门文章

分类专栏

设计模式 2篇
Java编程 4篇
算法 2篇
Python 1篇
IDEA 1篇
JQuery 1篇

最新评论

介绍原型模型
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
Java流和文件操作总结
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
Scrapy爬虫流程
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加除了各种控件外，文章正文的字数；(3)使用更多的站内链接。
排序算法思想及实现
ctotalk: 坚持。
DES解密解密文件和字符串及报错解决
神采奕奕的小豆丁: 您好，我用代码解密文件的时候报错： javax.crypto.BadPaddingException: Given final block not properly padded. Such issues can arise if a bad key is used during decryption. at com.sun.crypto.provider.CipherCore.doFinal(CipherCore.java:991) at com.sun.crypto.provider.CipherCore.doFinal(CipherCore.java:847) at com.sun.crypto.provider.DESCipher.engineDoFinal(DESCipher.java:314) at javax.crypto.Cipher.doFinal(Cipher.java:2164) at ThreadTest.MySecurity.decrypt(MySecurity.java:45) at ThreadTest.MySecurity.decryptFile(MySecurity.java:121) at ThreadTest.MySecurity.main(MySecurity.java:131) 这个是什么原因？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。