2017年02月_九茶

05月 02月 01月

原创分布式多爬虫系统——架构设计

前言：在爬虫的开发过程中，有些业务场景需要同时抓取几百个甚至上千个网站，此时就需要一个支持多爬虫的框架。在设计时应该要注意以下几点：代码复用，功能模块化。如果针对每个网站都写一个完整的爬虫，那其中必定包含了许多重复的工作，不仅开发效率不高，而且到后期整个爬虫项目会变得臃肿、难以管理。易扩展。多爬虫框架，这最直观的需求就是方便扩展，新增一个待爬的目标网站，我只需要写少量必要的内容（如抓取规则、解

2017-02-12 23:52:06 27609 13

原创 Python爬虫——DNS解析缓存

前言：这是Python爬虫中DNS解析缓存模块中的核心代码，是去年的代码了，现在放出来有兴趣的可以看一下。一般一个域名的DNS解析时间在10~60毫秒之间，这看起来是微不足道，但是对于大型一点的爬虫而言这就不容忽视了。例如我们要爬新浪微博，同个域名下的请求有1千万（这已经不算多的了），那么耗时在10~60万秒之间，一天才86400秒。也就是说单DNS解析这一项就用了好几天时间，此时加上DNS解

2017-02-12 12:21:20 10427 3

SpringBoot实战，丁雪丰译

别人20个积分放这个资源好贵呀，很多人都下不起，现上传一份供大伙使用。

2018-03-20

Python2.7.14 for windows64位最新版下载

Python2.7.14，适用64位Windows系统，官网的下载速度特别慢，所以传一份到CSDN，欢迎下载。

2017-10-19

phantomjs-2.1.1-linux-x86_64.tar.bz2

Linux下使用PhantomJS，方法见http://blog.csdn.net/bone_ace/article/details/53213779 第一条评论。

2016-11-25

SublimeText3工具箱

包括文件：Sublime Text Build 3083 x64 Setup.exe、Sublime_Text_CN_3083.zip、 pylint-1.5.2.tar.gz、 Theme - Cobalt2、使用说明.txt 更多情况请见博客：http://blog.csdn.net/Bone_ACE/article/details/50434050

2015-12-30