网络爬虫通用策略

1、通用爬虫框架:

选取种子URL-》放入待抓取URL队列-》下载网页形成网页库-》已抓取URL队列-》抽取URL放入待抓取URL队列末尾

已下载网页集合 == 已过期网页集合 == 待下载网页集合 == 可知网页集合 == 不可知网页集合

2、禁抓协议:爬虫禁抓协议(robot.txt) + 网页禁抓协议(html中嵌入<meta name='robots') 两类

3、衡量标准:网页覆盖率、网页时新性、网页重要性

4、抓取策略:宽度优先遍历策略、非完全pagerank策略、OPIC策略、大站优先策略

5、网页更新策略:历史参考策略、用户体验策略、聚类抽样策略

6、暗网抓取:百度『aladdin』 google『富含信息查询模板+ISIT算法』

7、分布式集群爬虫:主从式、对等式(利用一致性hash算法)

转载于:https://www.cnblogs.com/snailrun/p/5570550.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值