python3爬虫系列06之整体架构式:根据关键词爬取百度图片

本文介绍了使用Python3爬虫整体架构爬取百度图片的流程,包括调度器、URL管理器、下载器、解析器和数据输出。通过创建`spider_main.py`等文件实现爬虫,使用BeautifulSoup解析HTML并下载图片。此爬虫可针对任意关键词抓取百度图片。
摘要由CSDN通过智能技术生成

python3爬虫系列06之整体架构式:根据关键词爬取百度图片

因为是从这一系列篇的开头,是说整个python3爬虫的一个架构,但是后面几篇例子呢,写的文章也没有这么多复杂的文件,于是决定开一篇,对着具体的流程介绍这个:

python3爬虫系列01之结构:爬虫整体架与常用模块库介绍

中的方案,今天这个就是按照这个流程写的一个爬虫例子,在爬虫项目中可能使用到。

整个代码的流程如图:
在这里插入图片描述

  1. 调度器询问URL管理器,是否有待爬URL?URL管理器返回是/否;
  2. 如果是,调度器会从URL管理器中取出一个待爬URL;
  3. 调度器将URL传给下载器,下载网页内容后返回给调度器;
  4. 调度器再将返回的网页内容发送到解析器,解析URL内容,解析完成后返回有价值的数据和新的URL;
  5. 一方面,调度器将数据传递给应用进行数据的收集࿱
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

江湖一点雨

原创不易,鼓励鼓励~~~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值