爬虫笔记一之概念了解

最新推荐文章于 2022-04-17 21:10:55 发布

山上农夫

最新推荐文章于 2022-04-17 21:10:55 发布

阅读量223

点赞数

分类专栏： python 爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41803637/article/details/81121109

版权

python 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

爬虫

爬虫的错误认识

所谓的爬虫只是一段自动抓取所需要的信息的程序，所以爬虫不是只能使用python语音编写，也可以使用java、C语音等。

爬虫的简单架构

由于URL管理器不断的把URL传输给网页下载器，网页下载器又不断的传输字符串给网页解析器，网页解析器解析字符串，不断得到有价值的数据和新的URL，并将新的URL传给URL管理器，所以三者不断的循环，爬虫也就一直在工作了。

爬虫的运行流程

图片解析

第一步：调度器向URL管理器询问：“是否有带爬取的URL”

第二步：URL如果回答：”是”

第三步：调度器从URL管理器中，获取一个待爬取的URL

第四步：调度器把要下载的URL，发送给下载器

第五步：下载好后，下载器把URL的内容以字符串的格式，发送给调度器

第六步：调度器把下载后的URL内容，发送给解析器

第七步：解析器解析之后，把新的URL和有价值的内容返回给调度器

第八步：调度器把有价值的数据传输给应用，把新的URL传输给URL管理器

第九步：不断的循环，直到URL管理器中没有待爬取的URL为止。

URL管理器

作用

管理带抓取的URL和以抓取的URL

目的

防止重复抓取和循环抓取

功能

图解

主要有五大功能

1、添加新的URL到待爬取的集合中

2、判断待添加的URL是否在容器中

3、判断是否有等待爬取的URL

4、获取待爬取的爬虫

5、将URL从待爬取移动到已爬取

实现方式

1、内存：将要爬取的URL的集合和以爬取的URL的集合放置在python的set()中(因为set可以自动去除重复的元素)

2、关系数据库中

3、缓存数据库

网页下载器

作用

将互联网上对应的URL下载到本地的工具

网页解析器

作用

从网页中提取有价值的信息

爬虫制定流程

图解

第一步：确定目标

确定明白自己所要获取的资源

第二步：分析目标

做到三步走：

理论：

第一，明白网页的URL格式是什么；

第二，明白网页的数据格式是什么；

第三，明白网页的编码格式是什么；

具体：

目标：标题和简介

入口页：爬虫的第一个网页

URL格式：判断格式是否完整：如image/2902.htm；前面添加相应的网页的如http://www.baidu/XXX.htm；这样才是完整的。

数据格式：

标题：HTML格式

简介：HTML格式

页面编码：如UTF-8

第三步：编写代码

第四步：执行代码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫笔记一之概念了解

爬虫爬虫的错误认识所谓的爬虫只是一段自动抓取所需要的信息的程序，所以爬虫不是只能使用python语音编写，也可以使用java、C语音等。爬虫的简单架构由于URL管理器不断的把URL传输给网页下载器，网页下载器又不断的传输字符串给网页解析器，网页解析器解析字符串，不断得到...
复制链接

扫一扫

专栏目录

山上农夫 CSDN认证博客专家 CSDN认证企业博客

码龄7年

31: 原创

24万+: 周排名

197万+: 总排名

5万+: 访问

: 等级

865: 积分

18: 粉丝

19: 获赞

7: 评论

60: 收藏

私信

关注

分类专栏

Android 6篇
python3 7篇
Java
HTML5 8篇
CSS 16篇
android studio----problem 2篇
cmd
Oracle
MySql
VM
黑客
python 10篇
爬虫 1篇

最新评论

python3笔记之变量的命名
qq_58416319: 变量名用下划线开头可以吗
python3笔记之变量的命名
@CJL: 变量名只能是字母开头的吗
python3笔记之变量的命名
small @ tooth: 谢谢
python3笔记之变量的命名
山上农夫回复 small @ tooth: 这个我也不清楚，这一门编程语言设计起来，就有这样的规定，其意义就好比英语的语法一般，当然你一定要刨根问底你可以翻墙去国外，寻找python3的编写规则
python3笔记之变量的命名
small @ tooth: 请问为什么不能以数字开头?

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。