数据获取——网络爬虫3

最新推荐文章于 2023-10-20 15:19:43 发布

五吾唔

最新推荐文章于 2023-10-20 15:19:43 发布

阅读量496

点赞数

文章标签：学习其他爬虫数据挖掘大数据

本文链接：https://blog.csdn.net/m0_73540824/article/details/131391826

版权

文章介绍了网络爬虫的几种主要抓取策略，包括深度优先策略，适用于大型静态网站，能快速获取大量内容但可能陷入深层结构；广度优先策略，常用于动态网站，提高抓取速度，适合并行处理；聚焦搜索策略，针对特定主题高效抓取；最佳优先搜索策略，依据网页相似度抓取，可能忽略部分相关网页；以及基于IP地址的搜索策略，全面但不适合大规模搜索。

摘要由CSDN通过智能技术生成

5.抓取策略

网络爬虫在执行搜索任务时会采取一定的抓取策略每种策略的抓取方式都不一样，执行的效率也不-一样。以下是常用的抓取策略。

1)深度优先策略

对于一些大型网站和以静态网页为主的抓取内容.采取深度优先策略抓取，以便在最短时间内获得最大量的内容。深度优先策略是在开发爬虫早期使用较多的方法，它的目的是要达到被搜索结构的叶节点(即那些不包含任何超链接的HTML文件)。采取深度抓取方式的时候，搜索引擎会从网页的起始页开始，一个链接一- 个链接地跟踪下去,直至把这条线路追查完毕，然后再转向另一个网页线路，如此不停地搜索循环下去。深度优先搜索沿着HTML文件上的超链接走到不能再深人为止，然后返回到某一个HTML文件，再继续选择该HTML文件中的其他超链接。当不再有其他超链接可选择时，说明搜索已经结束。这种策略的优点是能遍历一个Web站点或深层嵌套的文档集合。缺点是因为Web结构相当深，有可能造成旦进去再也出不来的情况发生。对图8.3所示的网页结构使用深度优先策略抓取的顺序为: A-F-G、EH-.B.C.D.

2)广度优先策略

对于此动态网页或小型网站，采取广度优先策略抓取，搜索引擎会先抓取起始网页中链接的所有网页，然后再选择其中的-个链接网页，继续抓取在此网页中链接的所有网页。在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索，逐层进行搜索。这是最常用的方法,因为这个方法可以让网络爬虫并行处理，提高其抓取速度)广度优先搜索策略通常是实现爬虫的最佳策略。因为它容易实现，而且具备大多数期望的功能。但是如果要遍历一个指定的站点或者深层嵌套的HTML文件集,用广度优先搜索策略则需要花费较长时间才能到达深层的HTML文件。

对图8.3所示的网页结构使用广度优先策略抓取的顺序为: A-B、C、D、E、F-G、H-I.

3)聚焦搜索策略

聚焦搜索策略只挑出某个特定主题的页面，根据“最好优先原则”进行访问，快速、有效地获得更多的与主题相关的页面。聚焦爬虫在页面搜索时会对自己搜索到的页面进行评价，在评价后给出分值,在对得分进行排序后会把排序表插人到一个队列中。在自己发起的下一个搜索中会对弹出队列的第一个页面进行分析，以这种策略来追踪目标页面的可能性很大。聚焦搜索策略最关键的部分就是链接价值的计算方法，不同的计算方法会带来不同的评分价值，得到的评价级别也不一样.这就决定了搜索策略的不同。

4)最佳优先搜索策略

这种策略按照一定的网页分析算法，先计算出URL描述文本的目标网页的相似度，设定一个值，并选取评价得分超过该值的一一个或几个URL进行抓取。它只访问经过网页分析算法计算出的相关度大于给定值的网页。这种策略存在的一个问题是.在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一一种局部最优搜索算法。因此需要结合具体的应用对搜索策略进行改进,以跳出局部最优点。有研究表明.这样的闭环调整可以将无关网页数量降低30%~90%。