python爬虫国内外研究现状

最新推荐文章于 2023-09-04 11:44:25 发布

新海说

最新推荐文章于 2023-09-04 11:44:25 发布

阅读量3.6w

点赞数 10

分类专栏： python 文章标签：爬虫 python研究现状

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Gnewocean/article/details/87918802

版权

作为搜索引擎技术核心元素之一，自1993年初 Matthew Gray’s Wandered 在麻省理工学院开发出有史记载的第一个网络爬虫以来，爬虫技术历经20多年的发展，技术已日趋多样。为满足不同用户多种多样的需求，创建开发了类型众多的爬虫系统。按照实现技术和其系统构成，爬虫系统主要可以分为以下几种：

1.通用网络爬虫

通用网络爬虫（General Purpose Web Crawler）也可称之为全站爬虫（Scalable Web Crawler），它通过一系列预设的初始链接开始，获取页面上所有链接，根据预设规则，提取链接，进入待爬取队列，进而不断访问网页下载网页或取链接。然后通过HTML解析技术，获取页面数据，提取所需信息并保存，与此同时将新获取的链接放入待爬取队列，直到达到系统预设指定条件为止。通用网络爬虫有两种常用的爬取策略：

（1）深度优先策略（Depth first strategy）：

这个是在爬虫发展早期使用比较多的方法。这种策略最终要达到的效果是一直搜索到由站点分布抽象出来的树的叶子节点(即网页站点的最底层不包含任何其他不重复的网页链接的网页) 。在一个网页文件中

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。