网络爬虫作为搜索引擎的基础构件。
作用将海量的数据传送到本地,形成镜像备份。
先分析一下通用的爬虫架构 百度图片第二张就是
最主要还是去重式的下载 利用了队列
可以将上述网页划分为5部分
已下载网页集合
已过期网页集合
待下载网页集合
可知网页集合
不可知网页集合
大体而言 爬虫分3种类型
批量性爬虫 有限定范围(Batch Crawler)
增量性爬虫 会持续抓取定期更新(Incremental Crawler)
垂直型爬虫 针对特定的行业 难点 范围划分
优秀爬虫特点:
高性能 可扩展 健壮性 友好型
评价标准
1.抓取网页覆盖率
2.抓取网页实时性
3抓取网页重要性
Google
Fresh Bot
Deep Crawl Bot
4个关键技术
抓取策略
网页更新策略
暗网抓取策略
分布式爬虫
抓取策略
宽度有限Breath First
非完全策略 Partial PageRank
OCIP 策略 Online Page Importance computation
大站优先 Lager Sites First
网页更新策略
历史参考策略
用户体验策略
聚类抽样策略
暗网抓取策略
查询组合问题 Google Isit算法
文本框填写问题
分布式爬虫
分布式数据中心
分布式抓取服务器
分布式爬虫程序
分布式架构分 主从分布式 等式分布式(一致性哈希)