爬虫基础（1）什么是网络爬虫

最新推荐文章于 2024-05-25 21:08:58 发布

Python@达人

最新推荐文章于 2024-05-25 21:08:58 发布

阅读量2.5k

点赞数 1

分类专栏：爬虫那些事儿文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45617055/article/details/114983824

版权

文章目录

一. 认识网络爬虫

说起网络爬虫，人们常常会用这样一个比喻：如果把互联网比喻成一张网，那么网络爬虫就可以认为是一个在网上爬来爬去的小虫子，它通过网页的链接地址来寻找网页，通过特定的搜索算法来确定路线，通常从网站的某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有网页都抓取完为止。

网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等，可以自动化列兰网络中的信息，当然浏览信息的时候需要按照我们制定的规则进行，这些规则我们称之为网络爬虫算法。使用Python可以很方便地编写出爬虫程序，进行互联网信息的自动化检索。

二. 网络爬虫的组成

网络爬虫由控制节点、爬虫节点、资源库构成。如下图所示：
在这里插入图片描述

可以看到，网络爬虫中可以有多个控制节点，每个控制节点下可以有多个爬虫节点，控制节点之间可以互相通信，同时，控制节点和其下的各爬虫节点之间也可以进行互相通信，属于同一个控制节点下的各个爬虫节点间，亦可以互相通信。

控制节点：也叫作爬虫的中央控制器，主要负责根据URL地址分配线程，并调用爬虫节点进行具体的爬行
爬虫节点：爬虫节点会按照相关算法，对网页进行具体的爬行，主要包括下载网页以及对网页的文本进行处理，爬行后会将对应的爬行结果存储到对应的资源库

最低0.47元/天解锁文章

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
爬虫基础（1）什么是网络爬虫

文章目录一. 认识网络爬虫二. 网络爬虫的组成三. 网络爬虫的类型1. 通用网络爬虫2. 聚焦网络爬虫3. 增量式网络爬虫4. 深层网络爬虫（1）静态网页（2）深层页面和表层页面（3）网络爬虫表单填写四. 网络爬虫的用途一. 认识网络爬虫说起网络爬虫，人们常常会用这样一个比喻：如果把互联网比喻成一张网，那么网络爬虫就可以认为是一个在网上爬来爬去的小虫子，它通过网页的链接地址来寻找网页，通过特定的搜索算法来确定路线，通常从网站的某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。