简述网络爬虫的系统实现

最新推荐文章于 2023-12-11 21:08:50 发布

VIP文章 historyasamirror

最新推荐文章于 2023-12-11 21:08:50 发布

阅读量2.2w

点赞数 5

分类专栏：搜索引擎文章标签：网络爬虫 url filter 工作 internet 搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/historyasamirror/article/details/7061059

版权

网络爬虫常常被人所忽略，特别是和搜索引擎的光环相比，它似乎有些暗淡无光。我很少看见有详细介绍爬虫实现的文章或者文档。然而，爬虫其实是非常重要的一个系统，特别是在今天这个数据为王的时代。如果你是一个刚刚开始的公司或者项目，没有任何原始的数据积累，那么通过爬虫去Internet上找到那些有价值的数据再进行数据的清洗和整理，是一个可以快速得到数据的重要手段。

本文侧重于爬虫的系统设计和实现的部分细节，内容来源于两方面，一是我这一个多月做爬虫的心得体会，但我做的爬虫规模不至于太大，对于性能的要求达不到诸如百度那么高的要求，第二则是来源于阅读的几篇文献。我找到的大部分关于爬虫的系统方面的文献都是2000年左右的，此后寥寥无几，说明关于爬虫的系统设计在10年前已经基本解决了（2000年不就是Baidu刚开始的时候么，说不定它家的爬虫也参考了这些文章^-^）。

此外，既然本文侧重于系统方面的问题，那么某些内容就不会涉及，比如如何抓取那些隐藏的web数据，如何抓取ajax的页面，如何动态调整抓取频率等等。

正文

一个正规的，完整的网络爬虫其实是一个很复杂的系统：首先，它是一个海量数据处理系统，因为它所要面对的是整个互联网的网页，即便是一个小型的，垂直类的爬虫，一般也需要抓取上十亿或者上百亿的网页；其次，它也是一个对性能要求很好的系统，可能需要同时下载成千上万的网页，快速的提取网页中的url，对海量的url进行去重，等等；最后，它确实是一个不面向终

最低0.47元/天解锁文章

historyasamirror

关注

5
点赞
踩
28

收藏

觉得还不错? 一键收藏
7
评论
简述网络爬虫的系统实现

网络爬虫常常被人所忽略，特别是和搜索引擎的光环相比，它似乎有些暗淡无光。我很少看见有详细介绍爬虫实现的文章或者文档。然而，爬虫其实是非常重要的一个系统，特别是在今天这个数据为王的时代。如果你是一个刚刚开始的公司或者项目，没有任何原始的数据积累，那么通过爬虫去Internet上找到那些有价值的数据再进行数据的清洗和整理，是一个可以快速得到数据的重要手段。本文侧重于爬虫的系统设计和实现的部分细节，
复制链接

扫一扫

专栏目录

historyasamirror CSDN认证博客专家 CSDN认证企业博客

码龄18年

95: 原创

40万+: 周排名

219万+: 总排名

137万+: 访问

: 等级

1万+: 积分

1071: 粉丝

475: 获赞

515: 评论

757: 收藏

私信

关注

热门文章

分类专栏

最新评论

IO - 同步，异步，阻塞，非阻塞（亡羊补牢篇）
Perz_01: 很好的文章，收藏了
IO - 同步，异步，阻塞，非阻塞（亡羊补牢篇）
小号@wx:
IO - 同步，异步，阻塞，非阻塞（亡羊补牢篇）
老大，人跑了: 阻塞/非阻塞：是否需要等待所需的I/O（输入输出）存在，需要等待为阻塞。同步/异步：I/O是否完全不需要等待，不需要等待已存在的I/O从内核空间到用户空间的拷贝则为异步，需要等待为同步。阻塞、同步本质上都是等待，同步是更深层次的等待，I/O（输入输出）存在了并不表示就能马上处理I/O数据，只有等待数据到了用户空间进程才可以进行处理操作。
IO - 同步，异步，阻塞，非阻塞（亡羊补牢篇）
手磨程序: 同步和异步也可以按照提交与接收消息的顺序来区分吗，同步的话需要按照顺序进行接收，异步的话只有AIO才可以，它是内核自动提交，但是进程什么时候接收可以由进程决定
IO - 同步，异步，阻塞，非阻塞（亡羊补牢篇）
heng_zou: 有问题吧，同步说白了就是当前线程直接调用，异步则是通过其它线程调用并通过Future获取调用结果,同步和异步并不关心调用过程是否发生阻塞。异步一定是通过其它线程调用。因为回调通知一定意味着线程调用被阻塞后被唤醒回调过程。而阻塞和非阻塞则是对调用对象本身修饰。因此无论是BIO、NIO都是同步调用，区别在于NIO比起BIO多了判断IO是否准备好的再去进行IO读写，包括select/poll/epoll都是同步调用，只有AIO才是真正的异步IO，查看AIO源码发现底层还是基于线程池去执行系统调用。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。