数据预处理五、六章复习

最新推荐文章于 2023-08-30 00:26:45 发布

kangkaihahaha

最新推荐文章于 2023-08-30 00:26:45 发布

阅读量1.5k

点赞数 1

本文链接：https://blog.csdn.net/kangkaihahaha/article/details/106744153

版权

第五章

1、常用网络爬虫的策略有哪些

(1)深度优先策略是按照深度由低到高的顺序，依次访问下一级网页链接,直到不能再深入为止。爬
虫在完成一-个爬行分支后返回到上一链接节点进一步搜索其他链接。当所有链接遍历完后,爬行任务结束。
(2)广度优先策略是按照广度优先的搜索思想，逐层抓取URL池中的每一个URL的内容，并将每一层
的扇出URL纳入URL池中，按照广度优先的策略继续遍历。
(3)局部PageRamk策略按照一定的网页分析算法,预测候选URL与目标网页的相似度或与主题的
相关性,并选取评价最好的一个或几个URL进行抓取。
(4) OPIC策略，初始时给所有页面-一个相同的初始现金(cash)。当下载了某个页面之后,将P的现
分摊给所有从P中分析出的链接并将P的现金清空。对于待抓取AL队列中的所有页面都须按照现金
数进行排序。
(5)大站优先策略是指对待抓取URL队列中的所有网页，根据所属的网站进行分类。对于待下载页面
量大的网站，优先下载
(6)反向链接数策略是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内
容受到其他人推荐的程度。
(7)最佳优先搜索策略是通过URL描述文本与目标网页的相似度,或者与主题的相关性,根据所设定
的阈值选出有效的URL进行抓取。

2、简述通用网络爬虫的工作过程

通用网络爬虫它是根据预先设定的一-个或若干初始种子URL为开始,以此获得初始网页上MbRL列
表,在爬行过程中不断从URL队列中获取一个个URL,进而访问并下载该页面。页面下载后,页面解
析器去掉页面_上的HTML标记后得到页面内容将摘要、URL等信息保存到Web数据库中,同时抽取当
前页面上新的URL,保存到URL队列中,直到满足系统停止条件。

最低0.47元/天解锁文章

kangkaihahaha

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据预处理五、六章复习

第五章1、常用网络爬虫的策略有哪些(1)深度优先策略是按照深度由低到高的顺序，依次访问下一级网页链接,直到不能再深入为止。爬虫在完成一-个爬行分支后返回到上一链接节点进一步搜索其他链接。当所有链接遍历完后,爬行任务结束。(2)广度优先策略是按照广度优先的搜索思想，逐层抓取URL池中的每一个URL的内容，并将每一层的扇出URL纳入URL池中，按照广度优先的策略继续遍历。(3)局部PageRamk策略按照一定的网页分析算法,预测候选URL与目标网页的相似度或与主题的相关性,并选取评价最好的一个或
复制链接

扫一扫