一 理论
分类:
通用爬虫和聚焦爬虫
通用爬虫——主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜
像备份。尽可能的把互联网上的所有的网页下载下来,放到本地服务器里形成备份,再对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口。
聚焦爬虫——是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于:聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。
二 URL的搜索策略
✓ 基于IP地址搜索策略——
先赋予爬虫一个起始的IP地址,然后根据IP地址递增的方式搜索本
口地址段后的每一个WWW地址中的文档,它完全不考虑各文档中指向
其它Web站点的超级链接地址
✓ 广度优先——
在抓取过程中,在完成当前层次的搜索后,
才进行下一层次的搜索。