- 博客(2)
- 资源 (12)
- 问答 (1)
- 收藏
- 关注
原创 分布式多爬虫系统——架构设计
前言:在爬虫的开发过程中,有些业务场景需要同时抓取几百个甚至上千个网站,此时就需要一个支持多爬虫的框架。在设计时应该要注意以下几点:代码复用,功能模块化。如果针对每个网站都写一个完整的爬虫,那其中必定包含了许多重复的工作,不仅开发效率不高,而且到后期整个爬虫项目会变得臃肿、难以管理。易扩展。多爬虫框架,这最直观的需求就是方便扩展,新增一个待爬的目标网站,我只需要写少量 必要的内容(如抓取规则、解
2017-02-12 23:52:06 27611 13
原创 Python爬虫——DNS解析缓存
前言:这是Python爬虫中DNS解析缓存模块中的核心代码,是去年的代码了,现在放出来 有兴趣的可以看一下。 一般一个域名的DNS解析时间在10~60毫秒之间,这看起来是微不足道,但是对于大型一点的爬虫而言这就不容忽视了。例如我们要爬新浪微博,同个域名下的请求有1千万(这已经不算多的了),那么耗时在10~60万秒之间,一天才86400秒。也就是说单DNS解析这一项就用了好几天时间,此时加上DNS解
2017-02-12 12:21:20 10431 3
Python2.7.14 for windows64位 最新版下载
2017-10-19
phantomjs-2.1.1-linux-x86_64.tar.bz2
2016-11-25
SublimeText3工具箱
2015-12-30
FP-Growth算法python实现(完整代码)
2015-07-04
广工数据挖掘12、13、14年试题+课后答案+知识点总结+上课PPT+课外资料
2015-06-15
求三个很简单的 Oracle 语句(只是因为英文题目,看着有点晕而已)
2015-10-08
TA创建的收藏夹 TA关注的收藏夹
TA关注的人