网络爬虫

网络爬虫作为搜索引擎的基础构件。
作用将海量的数据传送到本地,形成镜像备份。

先分析一下通用的爬虫架构 百度图片第二张就是
这里写图片描述
最主要还是去重式的下载 利用了队列

可以将上述网页划分为5部分
已下载网页集合
已过期网页集合
待下载网页集合
可知网页集合
不可知网页集合

大体而言 爬虫分3种类型
批量性爬虫 有限定范围(Batch Crawler)
增量性爬虫 会持续抓取定期更新(Incremental Crawler)
垂直型爬虫 针对特定的行业 难点 范围划分

优秀爬虫特点:
高性能 可扩展 健壮性 友好型

评价标准
1.抓取网页覆盖率
2.抓取网页实时性
3抓取网页重要性

Google
Fresh Bot
Deep Crawl Bot

4个关键技术
抓取策略
网页更新策略
暗网抓取策略
分布式爬虫

抓取策略
宽度有限Breath First
非完全策略 Partial PageRank
OCIP 策略 Online Page Importance computation
大站优先 Lager Sites First

网页更新策略
历史参考策略
用户体验策略
聚类抽样策略

暗网抓取策略
查询组合问题 Google Isit算法
文本框填写问题

分布式爬虫
分布式数据中心
分布式抓取服务器
分布式爬虫程序

分布式架构分 主从分布式 等式分布式(一致性哈希)

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值