爬虫是什么 && 爬虫的种类

最新推荐文章于 2024-11-04 14:27:30 发布

weixin_33828101

最新推荐文章于 2024-11-04 14:27:30 发布

阅读量214

点赞数

文章标签：爬虫数据结构与算法

原文链接：https://yq.aliyun.com/articles/659524

版权

百度百科定义
网络爬虫又被称为网页蜘蛛。是一种按照一定的规则，自动地抓取信息的程序或者脚本。

分类：
通用网络爬虫（General Purpose Web Crawler）、
聚焦网络爬虫（Focused Web Crawler）、
增量式网络爬虫（Incremental Web Crawler）、
深层网络爬虫（Deep Web Crawler）。

常用的爬行策略有：深度优先策略、广度优先策略

深度优先策略：其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完后，爬行任务结束。这种策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费
广度优先策略：此策略按照网页内容目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后，爬虫再深入下一层继续爬行。这种策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题，实现方便，无需存储大量中间节点，不足之处在于需较长时间才能爬行到目录层次较深的页面

weixin_33828101

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。