九茶

强者自强,厚积薄发。

分布式多爬虫系统——架构设计

前言:在爬虫的开发过程中,有些业务场景需要同时抓取几百个甚至上千个网站,此时就需要一个支持多爬虫的框架。在设计时应该要注意以下几点: 代码复用,功能模块化。如果针对每个网站都写一个完整的爬虫,那其中必定包含了许多重复的工作,不仅开发效率不高,而且到后期整个爬虫项目会变得臃肿、难以管理。 易扩展。多...

2017-02-12 23:52:06

阅读数 22581

评论数 14

Python爬虫——DNS解析缓存

前言:这是Python爬虫中DNS解析缓存模块中的核心代码,是去年的代码了,现在放出来 有兴趣的可以看一下。 一般一个域名的DNS解析时间在10~60毫秒之间,这看起来是微不足道,但是对于大型一点的爬虫而言这就不容忽视了。例如我们要爬新浪微博,同个域名下的请求有1千万(这已经不算多的了),那么耗...

2017-02-12 12:21:20

阅读数 6966

评论数 3

提示
确定要删除当前文章?
取消 删除