数据预处理五、六章复习

第五章

1、常用网络爬虫的策略有哪些

(1)深度优先策略是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。爬
虫在完成一-个爬行分支后返回到上一链接节点进一步搜索其他链接。当所有链接遍历完后,爬行任务结束。
(2)广度优先策略是按照广度优先的搜索思想,逐层抓取URL池中的每一个URL的内容,并将每一 层
的扇出URL纳入URL池中,按照广度优先的策略继续遍历。
(3)局部PageRamk策略按照一定的网页分析算法,预测候选URL与目标网页的相似度或与主题的
相关性,并选取评价最好的一个或几个URL进行抓取。
(4) OPIC策略,初始时给所有页面-一个相同的初始现金(cash)。当下载了某个页面之后,将P的现
分摊给所有从P中分析出的链接并将P的现金清空。对于待抓取AL队列中的所有页面都须按照现金
数进行排序。
(5)大站优先策略是指对待抓取URL队列中的所有网页,根据所属的网站进行分类。对于待下载页面
量大的网站,优先下载
(6)反向链接数策略是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内
容受到其他人推荐的程度。
(7)最佳优先搜索策略是通过URL描述文本与目标网页的相似度,或者与主题的相关性,根据所设定
的阈值选出有效的URL进行抓取。

2、简述通用网络爬虫的工作过程

通用网络爬虫它是根据预先设定的一-个或若干初始种子URL为开始,以此获得初始网页上MbRL列
表,在爬行过程中不断从URL队列中获取一个个URL,进而访问并下载该页面。页面下载后,页面解
析器去掉页面_上的HTML标记后得到页面内容将摘要、URL等信息保存到Web数据库中,同时抽取当
前页面上新的URL,保存到URL队列中,直到满足系统停止条件。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值