第五章
1、常用网络爬虫的策略有哪些
(1)深度优先策略是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。爬
虫在完成一-个爬行分支后返回到上一链接节点进一步搜索其他链接。当所有链接遍历完后,爬行任务结束。
(2)广度优先策略是按照广度优先的搜索思想,逐层抓取URL池中的每一个URL的内容,并将每一 层
的扇出URL纳入URL池中,按照广度优先的策略继续遍历。
(3)局部PageRamk策略按照一定的网页分析算法,预测候选URL与目标网页的相似度或与主题的
相关性,并选取评价最好的一个或几个URL进行抓取。
(4) OPIC策略,初始时给所有页面-一个相同的初始现金(cash)。当下载了某个页面之后,将P的现
分摊给所有从P中分析出的链接并将P的现金清空。对于待抓取AL队列中的所有页面都须按照现金
数进行排序。
(5)大站优先策略是指对待抓取URL队列中的所有网页,根据所属的网站进行分类。对于待下载页面
量大的网站,优先下载
(6)反向链接数策略是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内
容受到其他人推荐的程度。
(7)最佳优先搜索策略是通过URL描述文本与目标网页的相似度,或者与主题的相关性,根据所设定
的阈值选出有效的URL进行抓取。
2、简述通用网络爬虫的工作过程
通用网络爬虫它是根据预先设定的一-个或若干初始种子URL为开始,以此获得初始网页上MbRL列
表,在爬行过程中不断从URL队列中获取一个个URL,进而访问并下载该页面。页面下载后,页面解
析器去掉页面_上的HTML标记后得到页面内容将摘要、URL等信息保存到Web数据库中,同时抽取当
前页面上新的URL,保存到URL队列中,直到满足系统停止条件。