网络爬虫

最新推荐文章于 2021-10-16 13:12:49 发布

菜鸡旭旭

最新推荐文章于 2021-10-16 13:12:49 发布

阅读量697

点赞数 1

分类专栏： es 文章标签：网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fengyuhan123/article/details/79579583

版权

es 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

网络爬虫作为搜索引擎的基础构件。
作用将海量的数据传送到本地，形成镜像备份。

先分析一下通用的爬虫架构百度图片第二张就是
这里写图片描述
最主要还是去重式的下载利用了队列

可以将上述网页划分为5部分
已下载网页集合
已过期网页集合
待下载网页集合
可知网页集合
不可知网页集合

大体而言爬虫分3种类型
批量性爬虫有限定范围（Batch Crawler）
增量性爬虫会持续抓取定期更新（Incremental Crawler）
垂直型爬虫针对特定的行业难点范围划分

优秀爬虫特点：
高性能可扩展健壮性友好型

评价标准
1.抓取网页覆盖率
2.抓取网页实时性
3抓取网页重要性

Google
Fresh Bot
Deep Crawl Bot

4个关键技术
抓取策略
网页更新策略
暗网抓取策略
分布式爬虫

抓取策略
宽度有限Breath First
非完全策略 Partial PageRank
OCIP 策略 Online Page Importance computation
大站优先 Lager Sites First

网页更新策略
历史参考策略
用户体验策略
聚类抽样策略

暗网抓取策略
查询组合问题 Google Isit算法
文本框填写问题

分布式爬虫
分布式数据中心
分布式抓取服务器
分布式爬虫程序

分布式架构分主从分布式等式分布式（一致性哈希）

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫

网络爬虫作为搜索引擎的基础构件。作用将海量的数据传送到本地，形成镜像备份。先分析一下通用的爬虫架构百度图片第二张就是最主要还是去重式的下载利用了队列可以将上述网页划分为5部分已下载网页集合已过期网页集合待下载网页集合可知网页集合不可知网页集合大体而言爬虫分3种类型批量性爬虫有限定范围（Batch Crawler）增量性爬虫会持续抓取...
复制链接

扫一扫

专栏目录

菜鸡旭旭 CSDN认证博客专家 CSDN认证企业博客

码龄8年

204: 原创

24万+: 周排名

149万+: 总排名

26万+: 访问

: 等级

4061: 积分

46: 粉丝

54: 获赞

19: 评论

219: 收藏

私信

关注

热门文章

分类专栏

最新评论

如何设计一款秒杀系统
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用标准目录；(2)使用更多的站内链接；(3)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)。
Netty补充
月＊落: 你需要把channelRead0()重命名为messageReceived()？？？？怎么重命名？改源码底层？
swagger-ui中的中文乱码
如果时间可以倒流: 楼上牛逼
No context given for net.logstash.logback.LogstashFormatter
小鲍侃java: 给大佬递茶，望有空互粉互访点赞
No context given for net.logstash.logback.LogstashFormatter
wwqdbty: 大哥呀。怎么解决的？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。