优先策略之广度优先和最佳优先

最新推荐文章于 2023-12-11 22:24:36 发布

haoguiting

最新推荐文章于 2023-12-11 22:24:36 发布

阅读量8.2k

点赞数 1

分类专栏：算法修炼手册

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/small_baby01/article/details/9182787

版权

前言：前段时间一直在忙着准备人工智能的项目答辩，其实就是编了一个很简单的网络程式——网络爬虫，然后模拟毕业论文的形式，准备开题报告，论文答辩（PPT），和论文设计（word）。整个项目很简单，这里主要的关注点在于网页的抓取策略，也就是常见的三种算法：深度优先、广度优先和最佳优先。深度优先在很多情况下会导致爬虫的陷入(trapped)问题，目前常见的是广度优先和最佳优先方法。

　　广度优先搜索策略
　　广度优先搜索策略是指在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页，一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用，先用广度优先策略抓取网页，再将其中无关的网页过滤掉。这些方法的缺点在于，随着抓取网页的增多，大量的无关网页将被下载并过滤，算法的效率将变低。

　　最佳优先搜索策略
　　最佳优先搜索策略按照一定的网页分析算法，预测候选URL与目标网页的相似度&

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
优先策略之广度优先和最佳优先

前言：前段时间一直在忙着准备人工智能的项目答辩，其实就是编了一个很简单的网络程式——网络爬虫，然后模拟毕业论文的形式，准备开题报告，论文答辩（PPT），和论文设计（word）。整个项目很简单，这里主要的关注点在于网页的抓取策略，也就是常见的三种算法：深度优先、广度优先和最佳优先。深度优先在很多情况下会导致爬虫的陷入(trapped)问题，目前常见的是广度优先和最佳优先方法。　　广度优先搜索策略　　...
复制链接

扫一扫

专栏目录

haoguiting CSDN认证博客专家 CSDN认证企业博客

码龄13年

77: 原创

17万+: 周排名

53万+: 总排名

27万+: 访问

: 等级

4815: 积分

170: 粉丝

96: 获赞

715: 评论

158: 收藏

私信

关注

热门文章

分类专栏

最新评论

聚焦网络爬虫
DONGGUANLIANG: 有源码能参考一下吗
教你快速入门Excel-宏与VBA（续）
看天空有星星: 你这资源没有一起给，对于初学者来说很难学的。
教你快速入门Excel-宏与VBA（下）
水冰心宁: 菜鸟标识这个代码怎么写。哈哈。我也是想把项目用更快的方法。 1.分享的文档，一旦有更新，其他方都可以跳出提醒更新点。2.如何不限制地输入信息。
教你快速入门Excel-宏与VBA（上）
m0_38052645: https://edu.csdn.net/course/detail/9016\这里有非常实用的VBA实例课程，看文字太累，不够直观，这个课程不错。
再谈三层架构
UlricaQ: 重要的接口

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。